国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

斯坦福揭秘 o1-preview 軟肋:數學競賽題稍作修改,準確率驟降 30%

來源: 責編: 時間:2025-02-02 18:40:35 123觀看
導讀 斯坦福大學最近的一項研究發現,盡管 o1-preview 在數學、代碼等領域能力逆天,但只要對數學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。在數學競賽的領域里,普特南數學競賽的威名可謂如雷貫耳。它由 Wil

斯坦福大學最近的一項研究發現,盡管 o1-preview 在數學、代碼等領域能力逆天,但只要對數學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。V2f28資訊網——每日最新資訊28at.com

在數學競賽的領域里,普特南數學競賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發起,自 1938 年首屆舉辦以來,歷經 66 年的歲月沉淀,已然成為全球大學生數學精英們一較高下的頂級賽場。V2f28資訊網——每日最新資訊28at.com

美國數學會的精心主辦,加上哈佛大學、多倫多大學等名校學子的踴躍參與,讓這項賽事的桂冠成為無數學子夢寐以求的殊榮,其權威性和挑戰性,那是得到了全球學界的公認。V2f28資訊網——每日最新資訊28at.com

而最近,來自斯坦福的一項研究,卻讓大家驚掉了下巴:僅僅對題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準確率就立刻大幅下降,降幅高達 30%!V2f28資訊網——每日最新資訊28at.com

V2f28資訊網——每日最新資訊28at.com

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfV2f28資訊網——每日最新資訊28at.com

這就好比一位武林高手,平時在熟悉的招式里威風八面,一旦對手換個路數,就立馬亂了陣腳。這不禁讓人好奇,這些難住最強推理模型的變體題,到底藏著怎樣的玄機?V2f28資訊網——每日最新資訊28at.com

北美最難數學競賽題「變臉」,AI 有點懵

OpenAI 的 o1-preview 模型自出道以來,憑借超強的推理能力,在各個領域大殺四方。V2f28資訊網——每日最新資訊28at.com

就拿編程來說,在 Codeforces 編程競賽這個「高手如云」的賽場上,它的 Elo 評分高達 1807,把 93% 的競爭對手都遠遠甩在身后,寫起代碼來又快又準,就像一位經驗老道的程序員。V2f28資訊網——每日最新資訊28at.com

在數學領域更是展現出了驚人的實力。2024 年的美國數學邀請賽(AIME)題目集上,o1-preview 的正確率高達 83%,相當于全美參賽選手 top500 的水平。V2f28資訊網——每日最新資訊28at.com

V2f28資訊網——每日最新資訊28at.com

醫學診斷方面,哈佛醫學院和斯坦福大學組成的科研團隊曾對 o1-preview 進行過全方位的 「考核」,結果令人驚嘆:在生成診斷意見、診斷臨床推理和管理推理這些關鍵任務上,它甚至超越了人類醫生。面對復雜的病例,它能快速分析癥狀、病史等信息,并給出準確的診斷建議。V2f28資訊網——每日最新資訊28at.com

然而,就是這樣一個在多領域「開掛」的模型,在面對普特南數學競賽題的變體時,卻仿佛迷失了方向。V2f28資訊網——每日最新資訊28at.com

在原始題目上,o1-preview 本能達到 41.95% 的準確率,而一旦題目中的變量、常量被修改,準確率就像坐了滑梯一樣,直線下降約 30%。V2f28資訊網——每日最新資訊28at.com

V2f28資訊網——每日最新資訊28at.com

這巨大的反差,背后其實有著深層次的原因。普特南競賽題本就以超高的難度、獨特的出題思路著稱,原始題目和變體題目之間,雖然看似只有細微的差別,但這些改變往往涉及到數學概念的深層次運用和邏輯結構的巧妙變換。V2f28資訊網——每日最新資訊28at.com

o1-preview 模型在訓練過程中,可能更多是對常見的數學題型、編程模式、醫學案例進行學習和優化,對于這種專門設計、極度刁鉆的變體題,缺乏足夠的「應對經驗」,難以迅速抓住問題的關鍵,從而導致準確率大幅下滑。V2f28資訊網——每日最新資訊28at.com

Putnam-AXIOM 基準,AI 數學能力的「試金石」

為了更準確深入地評估 AI 大模型的數學能力,研究團隊精心打造了 Putnam-AXIOM Original 基準,收納了來自歷年普特南數學競賽(Putnam)的 236 個數學問題,從復雜的代數變換到精妙的幾何證明,從抽象的數論難題到變幻莫測的組合數學謎題,無一不是對人類智慧極限的挑戰。V2f28資訊網——每日最新資訊28at.com

但這項基準的價值遠不止于收錄原題,更厲害的是,研究者們設計了一套巧妙的程序化修改機制,可以對問題中的變量、常量等關鍵要素進行修改,從而生成無限多個全新且難度相當的問題。V2f28資訊網——每日最新資訊28at.com

V2f28資訊網——每日最新資訊28at.com

比如說,把一個幾何問題中的邊長數值進行變換,或者改變函數題中的參數取值范圍,這些看似微小的調整,卻能讓整個問題的解法路徑大不相同。V2f28資訊網——每日最新資訊28at.com

而且,這些新生成的題目從未在互聯網上出現過,因此也不可能泄露到任何模型的訓練數據集中,完全杜絕了 AI 靠 「死記硬背」答案來作弊的可能,真正做到了對 AI 數學推理能力的精準探測。V2f28資訊網——每日最新資訊28at.com

在這個新設計的基準上,研究人員大范圍選擇了各種模型進行測試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦模型 Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數學能力聞名的開源模型。V2f28資訊網——每日最新資訊28at.com

首先,將 Putnam-AXIOM 基準中的 236 道原題輸入給各個模型,記錄它們的解題時間、推理步驟以及最終答案,算出準確率。接著,把經過程序化修改后的變體題拋給這些模型,同樣嚴格記錄解題過程中各項數據。V2f28資訊網——每日最新資訊28at.com

在原始題目上,o1-preview 模型以 41.95% 的準確率暫居榜首,可一旦切換到變體題,它的準確率就「跳水」到了 11.95% 左右,足足下降了 30 個百分點。V2f28資訊網——每日最新資訊28at.com

其他模型的準確率滑坡也相當顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號在變體題上的準確率不降反升。V2f28資訊網——每日最新資訊28at.com

V2f28資訊網——每日最新資訊28at.com

這些數據背后,反映出的問題相當深刻。一方面,當前的 AI 模型,哪怕是最頂尖的,在面對數學問題的靈活變化時適應性較差。它們可能對大規模數據訓練出來的固定模式有一定依賴,一旦題目超出了熟悉的套路就會出現顯著滑坡。V2f28資訊網——每日最新資訊28at.com

另一方面,普特南競賽題的變體設計,精準地擊中了 AI 的「軟肋」,這也為未來 AI 模型的訓練和提升指明了另一種方向。V2f28資訊網——每日最新資訊28at.com

參考資料:V2f28資訊網——每日最新資訊28at.com

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfV2f28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era)原文標題:《斯坦福揭秘 o1-preview 軟肋!數學競賽題稍作修改,準確率驟降 30%》V2f28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋:數學競賽題稍作修改,準確率驟降 30%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 英特爾 Falcon Shores GPU 止步,戰略轉向 AI 系統級解決方案

下一篇: 突破瓶頸,百度 EICopilot AI 提升企業知識圖譜利用率

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
欧美日韩第一区| 天堂一区二区在线免费观看| 免费成人在线网站| 国产乱码精品一区二区三区不卡| 久久久亚洲精华液精华液精华液| 激情文学综合网| 欧美天天综合网| 日本在线不卡视频一二三区| 国产伦精品一区二区| 亚洲综合视频网| 极品尤物av久久免费看| 欧洲亚洲精品在线| 日本中文字幕一区二区有限公司| 性欧美精品高清| 亚洲一区二区三区中文字幕| 99精品视频免费观看| 中文字幕亚洲一区二区av在线| 99热这里只有成人精品国产| 成人爱爱电影网址| 日韩国产欧美一区二区三区| 欧美日本视频在线| 香蕉成人啪国产精品视频综合网| 亚洲欧美日韩一区在线观看| 亚洲一级不卡视频| 久久精品欧美| 国产一区二区三区免费| 国产精品123区| 欧美视频官网| 蜜桃av久久久亚洲精品| 91在线精品一区二区三区| 在线播放国产精品二区一二区四区| 久久国产成人午夜av影院| 99国产精品国产精品久久| 99精品国产在热久久下载| 亚洲人成在线观看一区二区| 最新国产乱人伦偷精品免费网站| 最近日韩中文字幕| 国产一区二区黄色| 日韩福利电影在线| 69成人精品免费视频| av成人动漫在线观看| 中文字幕免费不卡| 日韩亚洲国产精品| 午夜亚洲福利老司机| 欧美日韩国产高清一区| 成人黄色片在线观看| 中文字幕不卡一区| 美女日韩在线中文字幕| 国产呦精品一区二区三区网站| 精品美女被调教视频大全网站| 欧美国产激情| 一区二区三区四区五区精品| 亚洲福利一二三区| 欧美日韩国产影片| 欧美二区视频| 亚洲高清三级视频| 制服视频三区第一页精品| 91网站最新地址| 亚洲一区二区在线视频| 7777精品伊人久久久大香线蕉| 91看片淫黄大片一级| 亚洲自拍偷拍av| 欧美一级夜夜爽| 亚洲高清激情| 久久嫩草精品久久久精品一| 亚洲久久视频| 国产乱码精品一区二区三区av | 成人欧美一区二区三区在线播放| 日韩三级中文字幕| 国产精品久久久久久久岛一牛影视| 亚洲综合视频一区| 大胆亚洲人体视频| 一区二区三区在线免费观看 | 99av国产精品欲麻豆| 国内精品国产三级国产a久久| 亚洲国产精华液网站w| 久久久久网站| 久久久一区二区三区| 亚洲丝袜制服诱惑| 欧美在线精品一区| 日韩欧美综合在线| 久久国产精品99久久久久久老狼| 国产欧美日韩综合一区在线播放 | 亚洲免费资源在线播放| 欧美成人免费在线| 欧美黄色一级视频| 亚洲综合图片区| 久久久精品黄色| 欧美日韩在线免费视频| 精品少妇一区二区| 日韩精品一二三| 久久99伊人| 亚洲成a人片综合在线| 国产精品一区二区a| 中文av一区特黄| 91女人视频在线观看| 久久综合中文字幕| 91麻豆精东视频| 国产亚洲福利| 亚洲永久精品国产| 亚洲国产成人私人影院tom| 欧美一级黄色大片| 色av一区二区| 一本久道久久综合狠狠爱| eeuss国产一区二区三区| 久久精品二区亚洲w码| 亚洲激情校园春色| 亚洲国产成人一区二区三区| 日韩视频一区在线观看| 欧美在线影院一区二区| 国产一区二区高清| 黄色亚洲大片免费在线观看| 菠萝蜜视频在线观看一区| 黑人精品欧美一区二区蜜桃 | 亚洲国产裸拍裸体视频在线观看乱了 | 国产suv精品一区二区三区| 日本成人在线看| 亚洲自拍偷拍综合| 日韩一区在线播放| 中文字幕第一区二区| 久久综合九色综合97婷婷| 欧美一区二区网站| 欧美日韩精品高清| 在线观看日韩毛片| 色综合久久88色综合天天 | 激情婷婷久久| 亚洲无玛一区| 亚洲国产精品久久久久久女王| 欧美日韩一区在线视频| 亚洲国产经典视频| 国产精品影视在线观看| 麻豆精品视频在线观看免费| 亚洲国产cao| 亚洲资源在线观看| 亚洲五月六月丁香激情| 亚洲国产成人av| 欧美喷水一区二区| 欧美日韩在线一区二区| 欧美丰满嫩嫩电影| 91精品国产高清一区二区三区 | 国产精品99久久久久久似苏梦涵| 狠狠色丁香久久婷婷综合丁香| 日韩av在线播放中文字幕| 青青草国产精品亚洲专区无| 日本美女一区二区| 韩国毛片一区二区三区| 国产精品综合av一区二区国产馆| 国产一区二区三区精品视频 | 亚洲成人av中文| 日本网站在线观看一区二区三区 | 国产成人午夜精品影院观看视频| 99久久99久久精品免费观看 | 国产成人精品影院| 国产精品99久| aaa国产一区| 91麻豆免费看片| 在线观看福利一区| 亚洲一区三区电影在线观看| 在线精品视频免费播放| 91精品国产综合久久香蕉的特点| 日韩一级免费观看| 欧美一级片在线| 久久精品一本| 日韩成人一区二区三区在线观看| 成人久久视频在线观看| 国产一区二区三区在线观看精品| 丁香五精品蜜臀久久久久99网站| 午夜日韩av| 亚洲综合不卡| 欧美久久久久久久久久| 久久精品视频在线免费观看| 亚洲丝袜制服诱惑| 久久精品99久久久| 欧美96在线丨欧| 91在线播放网址| 91亚洲男人天堂| 韩国精品主播一区二区在线观看 | 香蕉成人伊视频在线观看| 国产一区二区三区香蕉 | 欧美1区2区3区| 欧美日韩一区二区三区四区| 日韩香蕉视频| 国产综合自拍| 91香蕉视频在线| 精品第一国产综合精品aⅴ| 精品国产乱码久久| 制服.丝袜.亚洲.另类.中文| 国产亚洲欧洲997久久综合| 亚洲中国最大av网站| 国产a视频精品免费观看| 亚洲激情在线| 欧美一区二区三区色| 亚洲免费观看高清| 国产精品99久久久久久有的能看 | 3d动漫精品啪啪| 一区二区三区中文在线观看| 国产精品影视网| 国产伦精品一区二区三区在线观看| 国模精品一区二区三区| 欧美日韩一区二区三区四区五区|