當(dāng)前位置：首頁 > 元宇宙 > AI

OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 o4-mini 性能與錯(cuò)誤率一同提升

來源：責(zé)編：時(shí)間：2025-04-21 09:45:17 124觀看

導(dǎo)讀 4 月 19 日消息，OpenAI 最新發(fā)布的 o3 和 o4-mini 模型在多個(gè)方面展現(xiàn)出業(yè)內(nèi)領(lǐng)先的水準(zhǔn)，不過，這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發(fā)布的模型更加嚴(yán)重。據(jù)外媒 TechCrunch 今日報(bào)道，幻覺問題一直

4 月 19 日消息，OpenAI 最新發(fā)布的 o3 和 o4-mini 模型在多個(gè)方面展現(xiàn)出業(yè)內(nèi)領(lǐng)先的水準(zhǔn)，不過，這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發(fā)布的模型更加嚴(yán)重。

據(jù)外媒 TechCrunch 今日報(bào)道，幻覺問題一直是生成式 AI 發(fā)展過程中最難解決的挑戰(zhàn)之一，即使是目前性能最優(yōu)秀的模型也難以完全避免。過去，每一代新模型在降低幻覺頻率方面通常都會取得小幅進(jìn)步，但 o3 和 o4-mini 卻打破了這一趨勢。

根據(jù) OpenAI 的內(nèi)部測試，作為推理模型的 o3 和 o4-mini，出現(xiàn)幻覺的頻率不僅超過了前代推理模型 o1、o1-mini 和 o3-mini，甚至還高于傳統(tǒng)“非推理”模型（注：如 GPT-4o）。

OpenAI 在針對這兩款模型發(fā)布的技術(shù)報(bào)告中表示：“要弄清楚隨著推理模型規(guī)模的擴(kuò)大，幻覺問題為何反而變得更加嚴(yán)重，還需要進(jìn)一步研究。”報(bào)告指出，盡管 o3 和 o4-mini 在編程和數(shù)學(xué)等任務(wù)上的表現(xiàn)優(yōu)于以往，但由于模型輸出的答案總量增加，導(dǎo)致其既能作出更多準(zhǔn)確判斷，同時(shí)也不可避免地出現(xiàn)更多錯(cuò)誤甚至幻覺。

在 OpenAI 設(shè)計(jì)的內(nèi)部基準(zhǔn)測試 PersonQA 中，o3 回答問題時(shí)出現(xiàn)幻覺的比例達(dá)到 33%，幾乎是前代推理模型 o1 和 o3-mini 的兩倍，后者的幻覺率分別為 16% 和 14.8%。在同一測試中，o4-mini 的表現(xiàn)更差，幻覺率高達(dá) 48%。

第三方機(jī)構(gòu) Transluce 的測試也印證了這一問題。這家非營利 AI 研究實(shí)驗(yàn)室發(fā)現(xiàn)，o3 在回答問題時(shí)經(jīng)常會憑空捏造出某些“過程操作”。例如，Transluce 曾觀察到，o3 聲稱自己在一臺 2021 款 MacBook Pro 上“在 ChatGPT 之外”運(yùn)行了代碼，并將結(jié)果復(fù)制進(jìn)了答案中。實(shí)際上，雖然 o3 擁有一部分工具訪問權(quán)限，但并不具備執(zhí)行這種操作的能力。

OpenAI 發(fā)言人 Niko Felix 表示：“解決幻覺問題是我們一直在推進(jìn)的重點(diǎn)研究方向，我們也在不斷努力提升模型的準(zhǔn)確性與可靠性。”

本文鏈接：http://www.rrqrq.com/showinfo-45-12416-0.htmlOpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 o4-mini 性能與錯(cuò)誤率一同提升

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：[email protected]

上一篇：創(chuàng)投熱點(diǎn)速覽：云鯨融資、霸王茶姬上市與遇見小面沖刺港股等

下一篇：一張圖 + 一句話實(shí)現(xiàn)任意角色場景姿勢，騰訊混元宣布開源定制化圖像生成插件 InstantCharacter

標(biāo)簽：

熱門焦點(diǎn)

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

作者：徐賜豪來源：區(qū)塊鏈日報(bào)據(jù)全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟元宇宙專委會不完全統(tǒng)計(jì)，截至2023年7月，全國共有86所高校戰(zhàn)略布局元宇宙領(lǐng)域，其中本科院校73所，高職?？圃盒?3所
上、中、下游加深融合，搭建元宇宙產(chǎn)業(yè)全景

元宇宙產(chǎn)業(yè)鏈涉及多種技術(shù)和多個(gè)領(lǐng)域。在上游，聚集著大量的技術(shù)廠商，提供元宇宙相關(guān)的硬件和軟件支持；在中游，內(nèi)容運(yùn)營與分發(fā)領(lǐng)域也吸引著越來越多的企業(yè)以VR內(nèi)容
字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭奪什么？

正當(dāng)互聯(lián)網(wǎng)商業(yè)躊躇不前，互聯(lián)網(wǎng)大廠為了在存量中的增長擠破頭皮之時(shí)，元宇宙的概念被資本點(diǎn)燃。先是Facebook更名Meta正式進(jìn)軍元宇宙，然后字節(jié)跳動收購了一家VR硬
米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資

今日熱點(diǎn)：蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構(gòu)建而成；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資；米哈游推出元宇宙品牌HoYoverse；國產(chǎn)VR射擊游戲《Contra
城市數(shù)字孿生標(biāo)準(zhǔn)化白皮書（2022版）

當(dāng)前，城市數(shù)字孿生已經(jīng)發(fā)展成為支撐智慧城市的重要技術(shù)手段。城市數(shù)字孿生通過在數(shù)字空間對城市物理空間和社會空間進(jìn)行全要素表達(dá)、全過程呈現(xiàn)、全周期可溯，實(shí)
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場逐步進(jìn)入成熟期，商業(yè)化進(jìn)程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個(gè)階段。隨技術(shù)逐年突破，制
以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

作者：三黎過去的一年里，除了 BTC 一如既往穩(wěn)坐王位，DEFI 則是貫穿一整年的狂歡熱點(diǎn)。 DeFi 在讓 ETH 實(shí)現(xiàn)價(jià)值增長的同時(shí)，也使得其網(wǎng)絡(luò)日漸擁堵、交易費(fèi)用增高，成為
對諷刺無動于衷，Nori將碳市場放在區(qū)塊鏈上

當(dāng)我們聊氣候問題的解決方案時(shí)，以太坊區(qū)塊鏈應(yīng)該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個(gè)引擎，鼓勵(lì)農(nóng)民使用負(fù)碳耕作方法，將空氣中的碳抽出并放回地
我們?yōu)槭裁葱枰猈eb3，距離Web3的實(shí)現(xiàn)還有多遠(yuǎn)？

當(dāng)今技術(shù)正在經(jīng)歷著重要的變革，許多公司正在改變他們的經(jīng)營模式以求變得更加的靈活，其中有很大一部分公司采用了不同的方式來發(fā)展自己的業(yè)務(wù)。其中之一就是Web3，

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 o4-mini 性能與錯(cuò)誤率一同提升

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

上、中、下游加深融合，搭建元宇宙產(chǎn)業(yè)全景

字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭奪什么？

米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當(dāng)紅齊天完成B輪+融資

城市數(shù)字孿生標(biāo)準(zhǔn)化白皮書（2022版）

虛擬數(shù)字人：元宇宙的主角破圈而來

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

對諷刺無動于衷，Nori將碳市場放在區(qū)塊鏈上

我們?yōu)槭裁葱枰猈eb3，距離Web3的實(shí)現(xiàn)還有多遠(yuǎn)？

最新推薦

元宇宙的文旅賽道，還能如何發(fā)力？

從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

數(shù)字經(jīng)濟(jì)、數(shù)據(jù)要素與數(shù)字治理

NFT行業(yè)的三大區(qū)塊鏈之一引起了Snoop Dogg的強(qiáng)烈興趣，究竟有何潛力？

NFT高玩必備：NFT分析工具大盤點(diǎn)

多位全國政協(xié)委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

猜你喜歡

熱門推薦

相關(guān)資訊