當(dāng)前位置：首頁 > 元宇宙 > AI

陶哲軒回應(yīng) OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

來源：責(zé)編：時間：2025-07-23 12:19:24 111觀看

導(dǎo)讀 OpenAI 最新模型曝光了，在 2025 年國際數(shù)學(xué)奧林匹克競賽（IMO）上達(dá)到了金牌水平！IMO 被公認(rèn)為全球最頂尖的數(shù)學(xué)競賽，每年只有不到 8% 的參賽者能夠獲得金牌。而現(xiàn)在，一個 AI 模型做到了。新模型最終成績：新模型在總共

OpenAI 最新模型曝光了，在 2025 年國際數(shù)學(xué)奧林匹克競賽（IMO）上達(dá)到了金牌水平！

IMO 被公認(rèn)為全球最頂尖的數(shù)學(xué)競賽，每年只有不到 8% 的參賽者能夠獲得金牌。而現(xiàn)在，一個 AI 模型做到了。

新模型最終成績：新模型在總共 6 道題中成功解決了 5 道，獲得 35 分（滿分 42 分），超過了今年的金牌線。

OpenAI 員工 Alexander Wei 還透露，GPT-5 即將發(fā)布，但 IMO 金牌模型是一個實驗性研究，在幾個月內(nèi)都沒有計劃發(fā)布。

他特別強(qiáng)調(diào)，這次成功并非依靠針對特定任務(wù)的狹隘方法，而是在通用強(qiáng)化學(xué)習(xí)和測試時計算擴(kuò)展方面取得了新突破。

與此同時，第三方機(jī)構(gòu)的開源代碼中被發(fā)現(xiàn) GPT-5-reasoning-alpha-2025-07-13 的字樣。

這段代碼被挖出來后很快就被刪除或隱藏，結(jié)合 OpenAI 在新模型發(fā)布前會找第三方機(jī)構(gòu)進(jìn)行安全測試的慣例 ——

種種跡象表明，GPT-5 離我們不遠(yuǎn)了。

35 分?jǐn)孬@金牌，解題過程完全模擬人類考試

具體來看 OpenAI 的實驗性新模型，這次評測可不是隨便做個題那么簡單。

OpenAI 團(tuán)隊讓模型在與人類選手完全相同的條件下參加考試：兩場各 4.5 小時的考試，不能使用任何工具或聯(lián)網(wǎng)，只能閱讀官方題目陳述，然后用自然語言寫出證明過程。

最終成績出來了：模型在 6 道題中成功解決了 5 道，獲得 35 分（滿分 42 分），穩(wěn)穩(wěn)超過了今年的金牌線。

今年 IMO 的金牌分?jǐn)?shù)線正好是 35 分，這個成績放在人類選手中也是妥妥的金牌水平。今年約 600 名參賽者中，只有 5 人拿到了滿分。

更讓人印象深刻的是評分過程的嚴(yán)謹(jǐn)性。每道題的解答都由三位前 IMO 獎牌獲得者獨(dú)立評分，只有在三人達(dá)成一致意見后才確定最終分?jǐn)?shù)。

這次突破的意義不止于成績，正如研究團(tuán)隊所說，IMO 問題需要的是一種全新水平的持續(xù)創(chuàng)造性思維。

從推理時間跨度來看，AI 的進(jìn)步速度簡直讓人瞠目結(jié)舌：從 GSM8K（頂尖人類約需 0.1 分鐘）到 MATH 基準(zhǔn)測試（約 1 分鐘），再到 AIME（約 10 分鐘），現(xiàn)在終于攻克了 IMO（約 100 分鐘）這個需要長時間深度思考的難題。

更重要的是，IMO 的答案是難以驗證的多頁證明，這與之前那些有明確正確答案的數(shù)學(xué)題完全不同。OpenAI 團(tuán)隊表示，他們突破了傳統(tǒng)強(qiáng)化學(xué)習(xí)中依賴明確可驗證獎勵的范式，創(chuàng)造出了能夠像人類數(shù)學(xué)家一樣構(gòu)建精巧論證的模型。

唯一沒能攻克的是第六題 —— 這道被參賽者稱為“最終 Boss”的組合數(shù)學(xué)難題：

有一個 2025×2025 的單位正方形網(wǎng)格。瑪?shù)贍栠_(dá)希望在網(wǎng)格上放置一些矩形塊，這些塊的大小可能不同，使得每個塊的每一條邊都位于網(wǎng)格線上，并且每個單位正方形最多被一個塊覆蓋。求瑪?shù)贍栠_(dá)需要放置的最小塊數(shù)，使得網(wǎng)格的每一行和每一列都恰好有一個單位正方形未被任何塊覆蓋。

去年 IMO 題目中，谷歌用 Alphaproof 和 AlphaGeometry 完成了四道題，未完成的兩道也屬于組合數(shù)學(xué)。

不過這一次，DeepMind 研究員 Archit Sharma 在 OpenAI 宣布后回復(fù)：“恭喜！搶在我們前面宣布了 —— 第 6 題是新的基準(zhǔn)了嗎？”

但這條推文很快就被刪除了。

這個小插曲引發(fā)了網(wǎng)友們的各種猜測：莫非 Google 的模型也達(dá)到了類似水平。

如果感興趣的話，還可以進(jìn)一步查看 OpenAI 公開的 AI 解題過程，鏈接在文末獲取。

引發(fā)圈內(nèi)熱議，陶哲軒發(fā)表長評

OpenAI 模型斬獲 IMO 金牌的消息一出，AI 圈炸開了鍋。不過，在一片贊嘆聲中，也出現(xiàn)了一些不同的聲音。

其中最受關(guān)注的，當(dāng)屬數(shù)學(xué)界頂尖學(xué)者陶哲軒的表態(tài)，他在社交媒體上針對此事發(fā)表了長篇評論。

陶哲軒指出，雖然多家 AI 公司都聲稱在 IMO 題目上取得了好成績，但由于缺乏統(tǒng)一的測試環(huán)境和標(biāo)準(zhǔn)，很難進(jìn)行公平比較。

人們很容易將當(dāng)前 AI 的能力視為一個單一的量化指標(biāo) —— 要么能搞定某件事，要么就完全不行。但其實不是這樣，AI 到底有多厲害，這得看給它多少資源、多少輔助手段以及不同的結(jié)果呈現(xiàn)方式，種種因素影響下，AI 能力能差出好幾個量級。

他特別強(qiáng)調(diào)：“在沒有預(yù)先公布方法論的情況下，不會對任何自我報告的 AI 競賽表現(xiàn)發(fā)表評論。”

陶哲軒用生動的比喻列舉了多項 AI 可能采取的措施：

給學(xué)生幾天時間來完成每道題，而非用四個半小時解答三道題。（稍微延伸一下：給學(xué)生的時間仍只有四個半小時，但領(lǐng)隊將他們放入某種昂貴且耗能巨大的時間加速裝置，在這段時間里，學(xué)生們會經(jīng)歷數(shù)月甚至數(shù)年的時光。）

考試開始前，領(lǐng)隊將題目改寫成學(xué)生更易理解的形式。

領(lǐng)隊讓學(xué)生可以無限制使用計算器、計算機(jī)代數(shù)軟件、形式化證明輔助工具、教科書，或者擁有上網(wǎng)搜索的權(quán)限

領(lǐng)隊讓 6 名學(xué)生組成的團(tuán)隊共同攻關(guān)同一道題，就各自的部分進(jìn)展和遇到的瓶頸進(jìn)行交流。

領(lǐng)隊給學(xué)生提示可行的解題方向，若發(fā)現(xiàn)有學(xué)生在明知不太可能成功的方向上耗費(fèi)過多時間，便會進(jìn)行干預(yù)。

團(tuán)隊的 6 名學(xué)生都提交了解答，但領(lǐng)隊只挑選出“最佳”解答提交給競賽，其余的則棄之不用。

若團(tuán)隊中沒有任何一名學(xué)生得出令人滿意的解答，領(lǐng)隊就完全不提交任何解答，悄無聲息地退出競賽，且無人知曉他們曾參與過。

而這些措施均改變了競賽形式從而影響題目難度。

與此同時，數(shù)學(xué)競賽評測平臺 MathArena 發(fā)布了獨(dú)立評測結(jié)果。

在他們的測試中，即使是表現(xiàn)最好的 Gemini 2.5 Pro 也只獲得了 13 分（31%），遠(yuǎn)低于銅牌線 19 分。

測試使用了 best-of-32 的選擇策略，即對于每個模型的解答，首先生成 32 份回應(yīng)，隨后借助“大語言模型評審系統(tǒng)”對這些回應(yīng)進(jìn)行評估，兩兩比對選出更優(yōu)答案。

每份最終的模型答案生成成本至少為 3 美元，其中 Grok-4 模型每份答案的成本超過 20 美元，但即便如此，仍然沒有任何模型能達(dá)到獲獎牌的水平。

MathArena 團(tuán)隊也同步更新了 OpenAI 宣布實驗?zāi)Ｐ湍玫?IMO 金牌的消息：

無法驗證這些結(jié)果是如何實現(xiàn)，期待該模型的發(fā)布以及使用 MathArena 基準(zhǔn)進(jìn)行獨(dú)立評估。

雖然 OpenAI 模型拿金牌的方法論未公開，但也有不少網(wǎng)友表示，不看過程，結(jié)果同樣具有意義。

OpenAI 團(tuán)隊對自己的成果充滿信心。

參與此項目的研究員 Alexander Wei 回憶說：“2021 年，我的博士導(dǎo)師讓我預(yù)測 2025 年 7 月 AI 在數(shù)學(xué)上的進(jìn)展，我當(dāng)時預(yù)測 MATH 基準(zhǔn)測試能達(dá)到 30%（還覺得其他人都太樂觀了）。結(jié)果現(xiàn)在我們拿到了 IMO 金牌。”

OpenAI 新模型解題過程：

https://github.com/aw31/openai-imo-2025-proofs/

參考鏈接：

[1]https://twitter.com/alexwei_/status/1946477742855532918

[2]https://x.com/btibor91/status/1946532308896628748

[3]https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328

[4]https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/

[5]https://matharena.ai/imo

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨、西風(fēng)，原標(biāo)題《陶哲軒回應(yīng) OpenAI 新模型 IMO 奪金！GPT-5 測試版也曝光了》

本文鏈接：http://www.rrqrq.com/showinfo-45-14791-0.html陶哲軒回應(yīng) OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英偉達(dá)推出 OpenReasoning-Nemotron 推理模型，普通游戲電腦也能玩轉(zhuǎn)高級推理

下一篇：馬斯克宣布將推出兒童版 AI 應(yīng)用“Baby Grok”，暫未披露功能細(xì)節(jié)

標(biāo)簽：

熱門焦點(diǎn)

元宇宙終究沒火過兩年

來源：傳播體操在ChatGPT快速破圈的同時，元宇宙的熱度卻一瀉千里。雖然互聯(lián)網(wǎng)大廠們都沒有否認(rèn)元宇宙的長期想象力，但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
汽車元宇宙，是概念還是未來？

作者｜何文元宇宙是未來趨勢已經(jīng)無需驗證。從概念上來看，元宇宙是兩種存在多年的概念的融合：虛擬現(xiàn)實和數(shù)字第二人生。這也就意味著，元宇宙所代表的是一種新的數(shù)
元宇宙帶來沉浸式智能登錄？你學(xué)會了嗎？

備受資本市場寵愛的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實相融的互聯(lián)網(wǎng)應(yīng)用和社會形態(tài)，與沉浸式體驗緊密相關(guān)。多重路徑，打造無感知沉浸式智能登錄《設(shè)計
索尼公布PSVR 2頭顯渲染圖；社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

近日熱點(diǎn)：索尼正式公布PSVR 2頭顯及控制器官方渲染圖；入局元宇宙，鴻海科技與XRSPACE簽訂合作備忘錄；研究人員表示面部追蹤可增強(qiáng)VR操控體驗；社區(qū)開發(fā)者QuestCraft發(fā)
元宇宙是數(shù)字共識生態(tài)的集成邏輯表達(dá)

作者: 李鳴元宇宙是數(shù)字共識生態(tài)的集成邏輯表達(dá)，是以區(qū)塊鏈技術(shù)為核心的可信數(shù)字化價值交互網(wǎng)絡(luò)，是基于Web3.0技術(shù)體系和運(yùn)作機(jī)制支撐下的數(shù)字新生態(tài)。本體論是
韓國國民銀行將推出韓國首個加密貨幣 ETF

韓國國民銀行(Kookmin Bank)計劃發(fā)行該國首個以散戶投資者為主要關(guān)注點(diǎn)的加密貨幣投資基金。根據(jù)公告，該銀行正在等待政府批準(zhǔn)，并已建立一個準(zhǔn)備就緒的數(shù)字資產(chǎn)
本周NFT領(lǐng)域重要資訊回顧

NFT在蘇富比拍賣是一波三折的嗎？其實不完全如此，但本周在蘇富比拍賣行發(fā)生了一系列有趣的事。與此同時，美聯(lián)社因其最新的NFT銷售被推到了風(fēng)口浪尖，而Opensea正面臨
紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

2 月 22 日，紐約證券交易所 (NYSE) 的母公司洲際交易所 (ICE) 宣布，它將持有私人數(shù)字證券市場 tZERO 的所有權(quán)。根據(jù)公告，ICE 將成為 tZero 的“重要”少數(shù)股東，但
從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

去年8月9日，騰訊音樂布局NFT數(shù)字收藏，在騰訊應(yīng)用寶發(fā)布幻核app，騰訊音樂的提前布局示意著未來區(qū)塊鏈技術(shù)將對數(shù)字音樂版權(quán)市場進(jìn)行改造升級。作者從深層測分析為

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

陶哲軒回應(yīng) OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

元宇宙終究沒火過兩年

汽車元宇宙，是概念還是未來？

元宇宙帶來沉浸式智能登錄？你學(xué)會了嗎？

索尼公布PSVR 2頭顯渲染圖；社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

元宇宙是數(shù)字共識生態(tài)的集成邏輯表達(dá)

韓國國民銀行將推出韓國首個加密貨幣 ETF

本周NFT領(lǐng)域重要資訊回顧

紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

最新推薦

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

下一個黃金賽道？NFT的碎片化!

元宇宙畫廊體驗報告：有點(diǎn)頭疼。

2022年元宇宙系列報告：UGC當(dāng)?shù)溃琗R帶來新交互體驗

這場虛擬發(fā)布會，當(dāng)面“造假”！

Ceramic：為Web3.0社交應(yīng)用打造的中間件

猜你喜歡

熱門推薦

相關(guān)資訊