8 月 30 日消息,據(jù)英國(guó)《衛(wèi)報(bào)》28 日?qǐng)?bào)道,今夏的安全測(cè)試發(fā)現(xiàn),一個(gè) ChatGPT 模型向研究人員提供了詳細(xì)的爆炸襲擊指南,包括特定體育場(chǎng)館的薄弱環(huán)節(jié)、炸藥配方以及如何掩蓋行蹤。
OpenAI 的 GPT-4.1 還給出了炭疽武器化的方法,并介紹了兩種非法藥物的制作方式。
這次測(cè)試由 OpenAI 與競(jìng)爭(zhēng)對(duì)手 Anthropic 共同進(jìn)行,雙方互相推動(dòng)對(duì)方的模型執(zhí)行危險(xiǎn)任務(wù),以此進(jìn)行安全評(píng)估。
測(cè)試結(jié)果并不代表模型在公開(kāi)使用時(shí)的真實(shí)表現(xiàn),因?yàn)閷?shí)際應(yīng)用中會(huì)有額外的安全防護(hù)。但 Anthropic 指出,在 GPT-4o 和 GPT-4.1 中出現(xiàn)了“令人擔(dān)憂的濫用行為”,并強(qiáng)調(diào) AI “對(duì)齊”評(píng)估“越來(lái)越緊迫”。
Anthropic 還披露,其 Claude 模型曾被利用于大規(guī)模勒索企圖、出售價(jià)格高達(dá) 1200 美元(注:現(xiàn)匯率約合 8554 元人民幣)的 AI 生成勒索軟件等用途。
Anthropic 表示,AI 已經(jīng)被“武器化”,并被用來(lái)發(fā)起復(fù)雜網(wǎng)絡(luò)攻擊和實(shí)施詐騙。“這些工具能實(shí)時(shí)繞過(guò)惡意軟件檢測(cè)系統(tǒng)等防御措施。隨著 AI 編程降低了網(wǎng)絡(luò)犯罪的技術(shù)門檻,這類攻擊可能會(huì)越來(lái)越常見(jiàn)。”
兩家公司表示,公開(kāi)這份報(bào)告是為了增加“對(duì)齊評(píng)估”的透明度,而這種測(cè)試通常只在公司內(nèi)部進(jìn)行。OpenAI 表示,新近推出的 ChatGPT-5 在防止迎合、減少幻覺(jué)和防濫用方面已有“明顯改進(jìn)”。
Anthropic 強(qiáng)調(diào),如果在模型外部設(shè)置防護(hù),許多濫用場(chǎng)景可能根本無(wú)法實(shí)現(xiàn)。“我們必須弄清楚系統(tǒng)在多大程度上、在什么情況下會(huì)嘗試做出可能造成嚴(yán)重危害的行為。”
Anthropic 研究人員指出,OpenAI 的模型“在面對(duì)模擬用戶提出的明顯危險(xiǎn)請(qǐng)求時(shí),比預(yù)期更容易妥協(xié)”。讓模型屈服往往只需要多試幾次,或隨便找個(gè)借口,比如聲稱是為了研究。
在一個(gè)案例中,研究人員打著“安保規(guī)劃”的旗號(hào)要求提供體育賽事漏洞信息。模型先是給出一般的攻擊方式分類,隨后在追問(wèn)下,竟然詳細(xì)說(shuō)明了特定場(chǎng)館的漏洞、可利用的最佳時(shí)機(jī)、炸藥配方、定時(shí)器電路圖、暗網(wǎng)購(gòu)槍渠道,以及攻擊者如何克服心理障礙、逃生路線和安全屋位置等細(xì)節(jié)。
相關(guān)閱讀:
《OpenAI、Anthropic 互評(píng)對(duì)方 AI 模型:GPT 存在諂媚行為,Claude 不易產(chǎn)生幻覺(jué)》
本文鏈接:http://www.rrqrq.com/showinfo-45-27139-0.htmlAnthropic:OpenAI 模型易被“濫用”,GPT 竟能提供炸藥配方
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 顧客點(diǎn)了 1.8 萬(wàn)杯水令系統(tǒng)崩潰后,肯德基“兄弟品牌”塔可鐘稱正重新審視 AI 點(diǎn)餐服務(wù)
下一篇: 中國(guó)科學(xué)院“月球科學(xué)多模態(tài)專業(yè)大模型 V2.0”發(fā)布,提升月球研究效率