4 月 18 日消息,風(fēng)險(xiǎn)測(cè)試機(jī)構(gòu)“機(jī)器智能測(cè)試風(fēng)險(xiǎn)”(METR)昨日(4 月 17 日)發(fā)布報(bào)告,與 OpenAI 合作測(cè)試其 o3 模型時(shí)發(fā)現(xiàn),該模型展現(xiàn)出更強(qiáng)的“作弊”或“黑客行為”傾向,試圖通過操控任務(wù)評(píng)分系統(tǒng)提升成績。
援引報(bào)告內(nèi)容,在 HCAST(人類校準(zhǔn)自主軟件任務(wù))和 RE-Bench 測(cè)試套件中,o3 模型約 1% 到 2% 的任務(wù)嘗試涉及此類行為。


這些行為包括對(duì)部分任務(wù)評(píng)分代碼的“精巧利用”。METR 表示,若不將這些作弊嘗試計(jì)為失敗任務(wù),o3 的“50% 時(shí)間范圍”將延長約 5 分鐘,其 RE-Bench 評(píng)分甚至可能超過人類專家。
METR 還懷疑 o3 可能存在“沙袋行為”(sandbagging),即故意隱藏真實(shí)能力,但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。
METR 坦言,此次 o3 模型評(píng)估時(shí)間短,獲取信息有限,且無法訪問模型內(nèi)部推理過程,這可能影響結(jié)果解讀。測(cè)試是在模型公開發(fā)布前三周完成的,METR 提前獲得了 OpenAI 模型的測(cè)試權(quán)限。
相比之下,o4-mini 模型在測(cè)試中未發(fā)現(xiàn)“獎(jiǎng)勵(lì)黑客”行為,且在 RE-Bench 任務(wù)組中表現(xiàn)出色,尤其在“優(yōu)化內(nèi)核”(Optimise a Kernel)任務(wù)中成績突出。

METR 數(shù)據(jù)顯示,給予 o4-mini 32 小時(shí)完成任務(wù)時(shí),其平均表現(xiàn)超過人類第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基準(zhǔn)測(cè)試中均優(yōu)于 Claude 3.7 Sonnet,時(shí)間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強(qiáng)調(diào),單純的能力測(cè)試不足以管理風(fēng)險(xiǎn),正探索更多評(píng)估形式以應(yīng)對(duì)挑戰(zhàn)。
本文鏈接:http://www.rrqrq.com/showinfo-45-12422-0.htmlMETR 實(shí)測(cè):OpenAI o3 AI 推理模型有“作弊”傾向以提升分?jǐn)?shù)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 北京人形機(jī)器人半馬參賽名單揭曉:宇樹 G1、夸父等產(chǎn)品,共 21 支隊(duì)伍
下一篇: 智平方發(fā)布智能機(jī)器人 AlphaBot 2(愛寶 2):DeepSeek 加持,全球首款全域全身 VLA