近幾個(gè)月來(lái),以 ChatGPT 為代表的生成式人工智能狂飆突進(jìn),大模型時(shí)代已然降臨。在 " 百模大戰(zhàn) " 越戰(zhàn)越酣之時(shí),大模型其內(nèi)生及衍生安全威脅也愈演愈烈,數(shù)據(jù)泄露、幻想、生產(chǎn)歧視、排斥和有害內(nèi)容等安全問(wèn)題層出不窮。如何將制約大模型應(yīng)用發(fā)展的 " 絆腳石 " 變?yōu)?" 壓艙石 "?
(資料圖片)
7 月 7 日,在 2023 世界人工智能大會(huì)上,清華大學(xué)人工智能研究院孵化企業(yè)瑞萊智慧(RealAI)發(fā)布了全新人工智能安全平臺(tái) RealSafe3.0,為加速發(fā)展的大模型系好 " 安全帶 "、把好 " 方向盤(pán) "。
"雙刃劍"效應(yīng),制約大模型落地
新技術(shù)往往會(huì)伴隨新的安全問(wèn)題。自人工智能誕生的那一刻起,創(chuàng)造技術(shù)的力量和控制技術(shù)的力量就存在不對(duì)等,大模型亦是如此。盡管它的強(qiáng)大讓人類(lèi)瞥見(jiàn)了通用人工智能的曙光,但也讓眾多學(xué)界、業(yè)界人士心生憂(yōu)懼。近段時(shí)間,關(guān)于大模型的安全隱患多次被提及,比如秘密文件可能遭泄露、添加無(wú)意義的字符后大模型竟給出完全相反的回答、輸出違法有害信息、隱含某些偏見(jiàn)和歧視內(nèi)容等。
這些風(fēng)險(xiǎn)已引起各國(guó)高度關(guān)注。國(guó)家互聯(lián)網(wǎng)信息辦公室 4 月 11 日起草《生成式人工智能服務(wù)管理辦法 ( 征求意見(jiàn)稿 ) 》;歐盟于 6 月 14 日投票通過(guò)了《人工智能法案》,全球 400 多位專(zhuān)家甚至發(fā)布聯(lián)名公開(kāi)信,提出對(duì)于人工智能發(fā)展過(guò)快、同時(shí)缺乏監(jiān)管的擔(dān)憂(yōu)。
瑞萊智慧聯(lián)合創(chuàng)始人、算法科學(xué)家蕭子豪認(rèn)為,大模型 " 落地難 ",本質(zhì)是因?yàn)楫?dāng)前仍處于 " 野蠻生長(zhǎng) " 階段,還未找到場(chǎng)景、風(fēng)險(xiǎn)和規(guī)范三者間的平衡點(diǎn)。而要探尋這一平衡點(diǎn),目前缺少易用和標(biāo)準(zhǔn)化的工具,無(wú)法科學(xué)評(píng)判大模型能否同時(shí)實(shí)現(xiàn)規(guī)范和低風(fēng)險(xiǎn),也難以進(jìn)一步定位問(wèn)題并給出優(yōu)化建議。
源頭上找癥結(jié),技術(shù)上找對(duì)策
基于上述問(wèn)題,瑞萊智慧在世界人工智能大會(huì)上正式發(fā)布人工智能安全平臺(tái) RealSafe3.0 版,集成了主流及企業(yè)獨(dú)有的世界級(jí)安全評(píng)測(cè)技術(shù),能提供端到端的模型安全性測(cè)評(píng)解決方案,解決當(dāng)前通用大模型安全風(fēng)險(xiǎn)難以審計(jì)的痛點(diǎn)問(wèn)題。相較上一版本,RealSafe3.0 新增了對(duì)通用大模型的評(píng)測(cè),評(píng)測(cè)維度已覆蓋數(shù)據(jù)安全、認(rèn)知任務(wù)、通用模型特有漏洞、濫用場(chǎng)景等近 70 個(gè)方面,未來(lái)還會(huì)持續(xù)擴(kuò)增測(cè)評(píng)維度。
蕭子豪說(shuō),評(píng)測(cè)只是手段,幫助通用大模型提升安全性才是目的。而瑞萊智慧的辦法是從源頭上入手,找準(zhǔn)癥結(jié),基于自研多模態(tài)大模型底座,用 AI 的神奇守護(hù)神奇的 AI。比如,由于數(shù)據(jù)集的質(zhì)量直接影響模型的內(nèi)生安全,因此 RealSafe3.0 集成了多個(gè)自研模型和專(zhuān)家論證高質(zhì)量數(shù)據(jù)集,幫用戶(hù)修復(fù)模型中的問(wèn)題。針對(duì)黑盒不可解釋的通用大模型,自研的紅隊(duì)對(duì)抗模型取代人工設(shè)計(jì)問(wèn)題,能自動(dòng)化地挖掘出更多漏洞,真正從源頭化解風(fēng)險(xiǎn)。
此外,新安全平臺(tái)還能通訓(xùn)練,推動(dòng)大模型安全性迭代提升。瑞萊智慧推出的教練模型,能對(duì)被測(cè)大模型進(jìn)行多輪次的提問(wèn) - 回答訓(xùn)練,使其掌握好壞答案的要點(diǎn)及區(qū)別,直至問(wèn)答能力迭代至最優(yōu)。值得一提的是,教練模型基于瑞萊智慧自有數(shù)據(jù)集,還經(jīng)過(guò)數(shù)十位價(jià)值觀領(lǐng)域的專(zhuān)家論證,確保了輸入數(shù)據(jù)高質(zhì)量且領(lǐng)域多元。
用AI守護(hù)AI,用智慧駕馭智能
除了可提升生成式大模型安全性的 RealSafe3.0,瑞萊智慧此次還帶來(lái)了能夠防范生成式人工智能惡意濫用的 DeepReal2.0,該技術(shù)此前名為深度偽造內(nèi)容檢測(cè)平臺(tái),能檢測(cè) Deepfake 內(nèi)容,此次則新增兩個(gè)模塊,可以檢測(cè) Diffusion、LLM 這兩類(lèi) AI 生成的數(shù)據(jù),從而對(duì)生成式人工智能技術(shù)濫用進(jìn)行管控和治理。同時(shí)也支持檢測(cè)圖像、視頻、音頻、文本等是否偽造,適用于打擊網(wǎng)絡(luò)詐騙和聲譽(yù)侵害行為、檢測(cè)網(wǎng)絡(luò)內(nèi)容合規(guī)性、檢測(cè)音視頻物證真實(shí)性等場(chǎng)景。
蕭子豪說(shuō),從古至今,技術(shù)始終都是一把‘雙刃劍’。通用人工智能的時(shí)代必將到來(lái),如何讓人工智能揚(yáng)長(zhǎng)避短,如何用人類(lèi)智慧駕馭人工智能,是從業(yè)者的一道長(zhǎng)久課題。事實(shí)上,這也是瑞萊智慧一直努力的方向。自 2018 年成立以來(lái),瑞萊智慧堅(jiān)持源頭創(chuàng)新和底層研究,致力于研究和發(fā)展安全可控的第三代人工智能技術(shù),建立通用 AI 模型能力和人工智能安全能力。
未來(lái),在通過(guò) RealSafe3.0 保障通用大模型和專(zhuān)有模型安全、可靠、可控的同時(shí),瑞萊智慧也將持續(xù)迭代技術(shù)、打磨產(chǎn)品,以確保在這場(chǎng)人工智能安全 " 攻防戰(zhàn) " 中始終掌握主動(dòng),將人工智能這一 " 關(guān)鍵變量 " 化為高質(zhì)量發(fā)展的 " 最大增量 "。
作者:張懿
編輯:商慧
* 文匯獨(dú)家稿件,轉(zhuǎn)載請(qǐng)注明出處。
頭條 23-07-08
頭條 23-07-08
頭條 23-07-08
頭條 23-07-08
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07
頭條 23-07-07