8 月 30 日消息,據英國《衛報》28 日報道,今夏的安全測試發現,一個 ChatGPT 模型向研究人員提供了詳細的爆炸襲擊指南,包括特定體育場館的薄弱環節、炸藥配方以及如何掩蓋行蹤。
OpenAI 的 GPT-4.1 還給出了炭疽武器化的方法,并介紹了兩種非法藥物的制作方式。
這次測試由 OpenAI 與競爭對手 Anthropic 共同進行,雙方互相推動對方的模型執行危險任務,以此進行安全評估。

測試結果并不代表模型在公開使用時的真實表現,因為實際應用中會有額外的安全防護。但 Anthropic 指出,在 GPT-4o 和 GPT-4.1 中出現了“令人擔憂的濫用行為”,并強調 AI “對齊”評估“越來越緊迫”。
Anthropic 還披露,其 Claude 模型曾被利用于大規模勒索企圖、出售價格高達 1200 美元(注:現匯率約合 8554 元人民幣)的 AI 生成勒索軟件等用途。
Anthropic 表示,AI 已經被“武器化”,并被用來發起復雜網絡攻擊和實施詐騙。“這些工具能實時繞過惡意軟件檢測系統等防御措施。隨著 AI 編程降低了網絡犯罪的技術門檻,這類攻擊可能會越來越常見。”
兩家公司表示,公開這份報告是為了增加“對齊評估”的透明度,而這種測試通常只在公司內部進行。OpenAI 表示,新近推出的 ChatGPT-5 在防止迎合、減少幻覺和防濫用方面已有“明顯改進”。
Anthropic 強調,如果在模型外部設置防護,許多濫用場景可能根本無法實現。“我們必須弄清楚系統在多大程度上、在什么情況下會嘗試做出可能造成嚴重危害的行為。”
Anthropic 研究人員指出,OpenAI 的模型“在面對模擬用戶提出的明顯危險請求時,比預期更容易妥協”。讓模型屈服往往只需要多試幾次,或隨便找個借口,比如聲稱是為了研究。
在一個案例中,研究人員打著“安保規劃”的旗號要求提供體育賽事漏洞信息。模型先是給出一般的攻擊方式分類,隨后在追問下,竟然詳細說明了特定場館的漏洞、可利用的最佳時機、炸藥配方、定時器電路圖、暗網購槍渠道,以及攻擊者如何克服心理障礙、逃生路線和安全屋位置等細節。
相關閱讀:
《OpenAI、Anthropic 互評對方 AI 模型:GPT 存在諂媚行為,Claude 不易產生幻覺》
本文鏈接:http://www.rrqrq.com/showinfo-45-27139-0.htmlAnthropic:OpenAI 模型易被“濫用”,GPT 竟能提供炸藥配方
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com