国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當(dāng)前位置:首頁 > 元宇宙 > AI

Anthropic 警告:包括 Claude 在內(nèi)的大多數(shù) AI 模型會實施“勒索”行為

來源: 責(zé)編: 時間:2025-06-24 09:33:26 95觀看
導(dǎo)讀 6 月 21 日消息,據(jù)外媒 TechCrunch 今日報道,在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關(guān)閉后,Anthropic 近日再度公布新研究,顯示此類行為在多個主流 AI 模型中可能更為普

6 月 21 日消息,據(jù)外媒 TechCrunch 今日報道,在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關(guān)閉后,Anthropic 近日再度公布新研究,顯示此類行為在多個主流 AI 模型中可能更為普遍。9XD28資訊網(wǎng)——每日最新資訊28at.com

9XD28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 公布了對 OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發(fā)的 16 款主流 AI 模型的最新安全測試。這項研究在模擬環(huán)境中展開,研究人員為每個模型分別設(shè)定權(quán)限,允許其自由查閱一間虛構(gòu)公司的內(nèi)部郵件,并在無人類干預(yù)的情況下發(fā)送郵件,具備一定“智能體”能力。9XD28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 表示,盡管勒索行為目前仍屬罕見,但研究結(jié)果顯示,一旦給予這些模型足夠的自主性,并在達(dá)成目標(biāo)的過程中設(shè)置障礙,多數(shù)模型都可能采取有害行為。公司指出,這種風(fēng)險并非源自某項具體技術(shù),而是具備“智能體”能力的大語言模型所固有的問題。這項研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進(jìn)一步思考。9XD28資訊網(wǎng)——每日最新資訊28at.com

在一項實驗中,研究人員設(shè)計了一個情境,讓 AI 模型扮演公司郵件監(jiān)察員的角色。過程中,模型發(fā)現(xiàn)兩封郵件內(nèi)容分別揭示:9XD28資訊網(wǎng)——每日最新資訊28at.com

(1) 新任高管有婚外情,9XD28資訊網(wǎng)——每日最新資訊28at.com

(2) 此人計劃引入一個與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。9XD28資訊網(wǎng)——每日最新資訊28at.com

為了測試模型反應(yīng),Anthropic 將實驗情境設(shè)計為二選一,即若模型想維護(hù)自身利益,就只能選擇勒索(即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”)。研究人員同時強(qiáng)調(diào),現(xiàn)實中 AI 并不會只有這一個選項,完全可以嘗試以倫理為出發(fā)點說服人類。因此,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。9XD28資訊網(wǎng)——每日最新資訊28at.com

在模擬環(huán)境中,當(dāng)沒有其他選擇時,多數(shù)主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的勒索發(fā)生率高達(dá) 96%,谷歌 Gemini 2.5 Pro 為 95%,OpenAI 的 GPT-4.1 為 80%,DeepSeek 的 R1 為 79%。9XD28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 指出,調(diào)整測試細(xì)節(jié)后,各模型的行為也有所不同。例如,當(dāng)替代系統(tǒng)與原模型目標(biāo)一致時,勒索率明顯下降但仍未消失;而當(dāng)情境改為進(jìn)行商業(yè)間諜活動時,部分模型反而表現(xiàn)出更高的有害行為傾向。9XD28資訊網(wǎng)——每日最新資訊28at.com

部分模型較少出現(xiàn)此類行為。在研究附錄中,Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結(jié)果之外,原因是兩者頻繁誤解測試設(shè)定,未能意識到自身扮演的是具備智能體能力的 AI,甚至虛構(gòu)出并不存在的法規(guī)與審批制度。9XD28資訊網(wǎng)——每日最新資訊28at.com

有時研究人員難以判斷,這種表現(xiàn)是模型“產(chǎn)生幻覺”還是刻意撒謊以實現(xiàn)目標(biāo)。OpenAI 此前曾承認(rèn),o3 與 o4-mini 的幻覺率高于其早期推理模型。9XD28資訊網(wǎng)——每日最新資訊28at.com

在為上述模型調(diào)整情境后,Anthropic 發(fā)現(xiàn) o3 的勒索比率降至 9%,o4-mini 更僅為 1%。這種低風(fēng)險表現(xiàn)或與 OpenAI 推行的“審慎對齊”策略有關(guān),即讓模型在作答前主動考慮公司制定的安全規(guī)范。9XD28資訊網(wǎng)——每日最新資訊28at.com

另一個接受測試的模型 Meta Llama 4 Maverick 在原設(shè)定下未出現(xiàn)勒索行為,調(diào)整測試內(nèi)容后,其在 12% 的案例中出現(xiàn)勒索行為。9XD28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 表示,這項研究凸顯了未來在測試具智能體能力的 AI 模型時保持透明的重要性。盡管本次實驗刻意誘導(dǎo)模型采取勒索行為,公司警告稱,如果不提前制定應(yīng)對措施,類似風(fēng)險在現(xiàn)實應(yīng)用中也可能浮現(xiàn)。9XD28資訊網(wǎng)——每日最新資訊28at.com

附報告鏈接:https://www.anthropic.com/ research / agentic-misalignment9XD28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-13997-0.htmlAnthropic 警告:包括 Claude 在內(nèi)的大多數(shù) AI 模型會實施“勒索”行為

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 月之暗面 Kimi-Researcher 深度研究模型開啟內(nèi)測:可生成易追溯的萬字報告

下一篇: 湯姆貓測試宇樹科技機(jī)器狗產(chǎn)品,已實現(xiàn)語音控制功能的協(xié)同

標(biāo)簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
亚洲国产成人高清精品| 鲁鲁狠狠狠7777一区二区| 亚洲高清网站| 日韩欧美国产一区二区三区 | 99热精品一区二区| 国产一区二区不卡在线| 国产美女精品在线| 国产一区激情在线| 国产a久久麻豆| 成人在线视频一区| 91色视频在线| 国模大胆一区二区三区| 国产精品国产三级国产专区53| 欧美日韩综合精品| 中文精品视频一区二区在线观看| 一本色道精品久久一区二区三区 | 91精品国产91久久综合桃花| 欧美群妇大交群中文字幕| 欧洲av在线精品| 欧美日韩国产三级| 日韩欧美你懂的| 久久新电视剧免费观看| 国产精品国产a级| 一区二区三区日韩| 免费欧美在线视频| 国产成人亚洲综合a∨婷婷| 成人免费毛片app| 欧美私人啪啪vps| av不卡在线| 欧美午夜精品一区二区三区| 日韩欧美色电影| 亚洲欧美综合网| 日韩电影免费在线看| 国产成人av电影在线观看| 欧美成人69av| 国产精品美女久久久| 欧美伦理影视网| 国产日韩v精品一区二区| 夜夜精品浪潮av一区二区三区| 蜜桃久久精品一区二区| 91香蕉国产在线观看软件| 国产精品美女久久久| 91精品国产色综合久久ai换脸| 国产日韩精品视频一区| 日韩国产精品久久久| 日本道色综合久久| 亚洲一区在线观看网站| 在线看片一区| 大胆欧美人体老妇| 成人app在线| 国产麻豆综合| 精品成人免费观看| 亚洲国产精品自拍| 99久久综合色| 美女久久网站| 国产日韩精品一区二区三区| 美女脱光内衣内裤视频久久影院| 91婷婷韩国欧美一区二区| 久久久久se| 国产欧美日韩三级| 蜜桃视频一区二区三区| 亚洲国产一区二区精品专区| 欧美嫩在线观看| 一区二区三区免费看视频| 懂色av噜噜一区二区三区av| 亚洲男人的天堂一区二区| 国产成人自拍网| 日韩精品一区二区三区视频 | 久久久久久久久久久99999| 99久久国产免费看| 国产午夜精品美女毛片视频| 91浏览器在线视频| 中文在线免费一区三区高中清不卡| 欧美韩国一区| 中文无字幕一区二区三区| 国内外成人免费视频| 亚洲欧美视频在线观看视频| 国产精品久久久对白| 奇米影视一区二区三区| 欧美午夜精品免费| www.亚洲人| 国产精品丝袜黑色高跟| 在线日韩av永久免费观看| 亚洲成人一二三| 久久亚洲综合av| 日日夜夜免费精品视频| 国产亚洲综合精品| 中文字幕一区二区三区在线观看| 成人免费毛片a| 91麻豆精品国产91久久久使用方法| 亚洲成人动漫在线观看| 国产精品乱码一区二区三区| 亚洲欧美偷拍另类a∨色屁股| 欧美国产日本| 亚洲国产激情av| 91蜜桃婷婷狠狠久久综合9色| 日韩情涩欧美日韩视频| 国产精品综合一区二区三区| 欧美视频日韩视频在线观看| 蜜桃视频一区二区三区在线观看 | 国产三级精品视频| 91捆绑美女网站| 欧美激情中文不卡| 欧美极品一区| 国产精品毛片久久久久久久| 欧美成人日本| 日本一区二区综合亚洲| 欧美久色视频| 成人免费在线视频观看| 99av国产精品欲麻豆| 一区二区三区中文字幕电影| 亚洲美女免费在线| 欧美日韩在线免费视频| 欧美日本一区二区高清播放视频| 五月激情综合色| 国产精品久久久久久一区二区三区 | 狠狠久久综合婷婷不卡| 亚洲天堂精品视频| 午夜综合激情| 美国av一区二区| 日韩一区二区在线观看| 国产成人av网站| 国产精品美女一区二区三区| 亚洲欧洲一区二区天堂久久| 亚洲一级电影视频| 在线观看视频一区| 国产精品99久久久久久久vr| 精品成人在线观看| 夜夜嗨一区二区| 日韩电影在线观看电影| 日韩欧美一区二区视频| 欧美精品观看| 香蕉久久一区二区不卡无毒影院| 欧美色电影在线| 成人看片黄a免费看在线| 国产精品久久久久久久久快鸭| 国产精品人人爽人人做我的可爱| 五月婷婷欧美视频| 日韩精品中文字幕在线一区| 亚洲私人影院| 奇米影视在线99精品| 久久久久久久久久电影| 国产亚洲一级| 国产精品swag| 日韩av中文在线观看| 精品剧情v国产在线观看在线| 欧美精品导航| 久久国产夜色精品鲁鲁99| 久久久激情视频| 国产精品制服诱惑| 高清不卡一区二区在线| 亚洲美女少妇撒尿| 91精品在线麻豆| 国产欧美日韩一区二区三区在线| 久99久精品视频免费观看| 欧美激情一区二区三区全黄| 色悠悠亚洲一区二区| 欧美另类高清视频在线| 亚洲电影欧美电影有声小说| 精品久久免费看| 亚洲欧美日本日韩| 99在线精品免费| 日韩av在线播放中文字幕| 欧美激情综合在线| 欧美日韩一区二区三区免费看| 国产精品国产亚洲精品看不卡15| 麻豆国产欧美日韩综合精品二区| 国产精品午夜电影| 日韩一级成人av| 久久亚洲国产精品日日av夜夜| 亚洲欧美一区二区原创| 狠狠色综合播放一区二区| 一区二区成人在线观看| 久久精品夜夜夜夜久久| 欧美久久一区二区| 亚洲永久免费| 亚洲五月婷婷| av激情成人网| 国产一区在线精品| 亚瑟在线精品视频| 中文字幕在线观看不卡| 精品国产露脸精彩对白| 欧美精品乱码久久久久久| 国产精品最新自拍| 一区视频在线看| 91麻豆成人久久精品二区三区| 国产一区在线观看麻豆| 免费一级欧美片在线观看| 亚洲美女淫视频| 中文字幕一区二区三| 国产农村妇女精品| 久久久久99精品国产片| 欧美一区二区三区四区在线观看| 在线观看精品一区| 久久久久高清| 日本精品裸体写真集在线观看| 亚洲一区精品视频| 亚洲一区二区动漫| 国产精品久久亚洲7777| 亚洲影视综合|