當前位置：首頁 > 元宇宙 > AI

OpenAI 研究人員宣稱已破解模型“幻覺”難題：現有評估方式在鼓勵 AI“瞎蒙”

來源：責編：時間：2025-09-09 11:32:41 23觀看

導讀 9 月 6 日消息，據《商業內幕》今日報道，OpenAI 研究人員宣稱已經破解大語言模型性能最大的障礙之一 —— 幻覺問題。注：所謂幻覺，是指大語言模型把不準確的信息當作事實輸出，幾乎所有主流模型都深受其困擾。OpenAI

9 月 6 日消息，據《商業內幕》今日報道，OpenAI 研究人員宣稱已經破解大語言模型性能最大的障礙之一 —— 幻覺問題。

注：所謂幻覺，是指大語言模型把不準確的信息當作事實輸出，幾乎所有主流模型都深受其困擾。

OpenAI 在周四發布的一篇論文中指出，幻覺的根源在于訓練方式更偏向獎勵“猜測”，而不是承認不確定性。換句話說，模型被訓練成“裝作知道”，而不是坦率地說“我不確定”。

不過，不同模型的表現差別明顯。OpenAI 在上個月的博文中提到，Claude 在面對不確定時往往更謹慎，常常避免給出錯誤回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用價值。

研究人員在論文中寫道：“幻覺之所以難以消除，是因為現有的評估標準獎勵猜測。模型被優化成‘考試型選手’，在不確定時猜一猜反而能提高分數。”

結果是，大語言模型幾乎一直處于“考試模式”，把世界看成非黑即白的是非題。但現實遠比考試復雜，不確定性往往多于確定性，絕對的準確并不常見。

研究人員指出：“人類會在現實生活的挫折中學會表達不確定性的價值，而大語言模型的評估主要依賴考試，這些考試卻懲罰了不確定的回答。”

其認為，解決方法在于重新設計評估標準。“問題的根源是評估指標沒有對齊，必須調整主要的評分方式，避免在模型不確定時因拒答而被扣分。”

OpenAI 在介紹論文的博文中進一步解釋說：“目前廣泛使用的基于準確率的評估需要更新，打分方式應當抑制‘亂猜’行為。如果排行榜繼續獎勵僥幸的回答，模型就會不斷被訓練成靠猜測過關。”

本文鏈接：http://www.rrqrq.com/showinfo-45-27421-0.htmlOpenAI 研究人員宣稱已破解模型“幻覺”難題：現有評估方式在鼓勵 AI“瞎蒙”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：商湯日日新為 Claude API 用戶提供“搬家”服務：可獲 5000 萬 Tokens 體驗包

下一篇：商湯大裝置與華為昇騰 384 超節點全面適配，多項創新提升訓練效率

標簽：

熱門焦點

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當下所有大廠推出的元宇宙產品，所能帶來的沉浸式體驗并不多，好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設
比特幣的價格越高，使用價值越大

隔夜比特幣還是在精準地橫盤在42k上方。空頭昨日試圖發起一波小的攻勢，但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下，彰顯著市場活躍度的
Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

上周，外媒UploadVR在Quest 2開發者文檔中發現了從未被公布過的“身體追蹤支持”選項，暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問答環節中，Meta Reali
紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

2 月 22 日，紐約證券交易所 (NYSE) 的母公司洲際交易所 (ICE) 宣布，它將持有私人數字證券市場 tZERO 的所有權。根據公告，ICE 將成為 tZero 的“重要”少數股東，但
又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

作者：董宇佳2月28日，智度股份在北京舉辦產品發布會，宣布其與國光電器聯手打造的國內首個藝術元宇宙社區——“Meta彼岸”在VR端和移動端正式公測。從科技巨頭布局
融資千萬美元的元宇宙平臺UGC到底是什么？

據獲悉，全球化元宇宙社交平臺BUD Technologies, Inc.（以下簡稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創投領投，老股東源碼資本、GGV紀源資本、云九資
虛擬人的3大紀律和6種品牌孵化模式

作者：陳格雷（老小格）及團隊虛擬人很熱，我們最近廣泛收集和研究了、各種消費品牌企業在虛擬人開發上的一些主要特點，整理出6種最主要的品牌虛擬人模式，后面一一介紹。
這場虛擬發布會，當面“造假”！

英偉達去年4月份那場發布會，你曾看出什么不對勁的地方嗎？你品，你細品——在計算機圖形學頂會SIGGRAPH 2021上，英偉達通過一部紀錄片自曝：那場發布會內藏玄機~你看到
元宇宙+劇本殺：“在異世界里當演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造，通過VR技術塑造了與

猜你喜歡

SQL Error: select * from ***_ecms_news13 where id in(203,214,,51,15,133) limit 6

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 研究人員宣稱已破解模型“幻覺”難題：現有評估方式在鼓勵 AI“瞎蒙”

大廠元宇宙，又菜又愛玩

比特幣的價格越高，使用價值越大

Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

又一家數字營銷公司入局元宇宙，國內首個藝術元宇宙社區“Meta彼岸”上線

融資千萬美元的元宇宙平臺UGC到底是什么？

虛擬人的3大紀律和6種品牌孵化模式

這場虛擬發布會，當面“造假”！

元宇宙+劇本殺：“在異世界里當演員”

最新推薦

內容行業大變天，爆款全靠AI？

FMIFAwards獎項即將揭曉！

拯救XR，蘋果力不從心

“平均時代”：ChatGPT模仿秀的隱喻

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

NFT：新騙局的狩獵場

猜你喜歡

熱門推薦

相關資訊