国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

來源: 責編: 時間:2025-02-05 15:44:00 131觀看
導讀 DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了。最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種

DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了。cc228資訊網——每日最新資訊28at.com

最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種現象被研究者稱為 Underthinking(欠思考)。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

研究團隊來自騰訊 AI 實驗室、蘇州大學和上海交通大學,主要研究對象是開源的 DeepSeek-R1 和 Qwen QwQ 系列模型。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

通過分析 AI 的錯誤答案,他們發現當前的推理大模型經常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開始探索別的思路,導致后續生成的數千個 tokens 對解題毫無貢獻。cc228資訊網——每日最新資訊28at.com

這種“無效努力”不僅浪費計算資源,還顯著降低了答案的正確率。cc228資訊網——每日最新資訊28at.com

“三心二意”是罪魁禍首

這一現象在解決數學競賽題等更為復雜任務時尤為明顯。cc228資訊網——每日最新資訊28at.com

為了系統分析,團隊在三個具有挑戰性的測試集 MATH500、GPQA Diamond 和 AIME2024 上,對類 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等進行了實驗。cc228資訊網——每日最新資訊28at.com

下圖比較了正確和錯誤回答中的 token 使用量和思維切換次數。平均來看,類 o1 模型在錯誤回答中比正確回答多消耗了 225% 的 token,原因是思維切換頻率增加了 418%。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

為了深入分析這一現象,研究團隊開發了一套評估框架,用于判斷被放棄的推理路徑是否實際上足以推導出正確答案。cc228資訊網——每日最新資訊28at.com

結果觀察到,許多模型在回答開頭階段的思路是正確的,但并未繼續深入完成推理。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在超過 50% 的錯誤回答中,有 10% 以上的思路是正確的。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

如下圖所示的例子,例如,Thought 1 通過識別給定方程類似于以 (0,0) 和 (20,11) 為中心的橢圓方程,啟動了正確的解釋。將兩個表達式設為相等,是尋找滿足這兩個方程的公共點 (x, y) 的有效方法。cc228資訊網——每日最新資訊28at.com

然而,模型并未專注于深入探索這一合理思路,使用進一步的代數操作和優化技術進行分析,而是頻繁切換思路,額外消耗了約 7270 個 token,卻依然未能得出正確答案。cc228資訊網——每日最新資訊28at.com

最終,它得出一個缺乏擴展 COT 過程支持的猜測答案。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

基于這些觀察,研究人員提出了一個用于量化 Underthinking 程度的指標(Underthinking Metric)。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

這個指標通過測量錯誤答案中的 token 使用效率來評估推理效率,計算從回答開始到第一個正確思路出現所需的 token 數量與總 token 數量的比值。cc228資訊網——每日最新資訊28at.com

實驗結果表明,所有測試的類 o1 模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關系在不同數據集上表現各異。cc228資訊網——每日最新資訊28at.com

在 MATH500-Hard 和 GPQA Diamond 數據集上,性能更優的 DeepSeek-R1-671B 模型在取得更高準確率的同時,其 UT 得分也更高,表明錯誤回答中存在更多思維不足。cc228資訊網——每日最新資訊28at.com

這意味著,盡管模型整體能力更強,但在不確定時可能生成更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。cc228資訊網——每日最新資訊28at.com

相反,在 AIME2024 測試集中,DeepSeek-R1-671B 模型不僅取得了更高的準確率,還表現出較低的 UT 得分,反映出較少的思維不足和更高的 token 效率。cc228資訊網——每日最新資訊28at.com

這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與 AIME2024 所要求的問題類型和推理過程更好地對齊。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

理解思維不足現象對于開發能夠提供正確答案并具備有效推理過程的模型至關重要。cc228資訊網——每日最新資訊28at.com

如何讓 AI 學會“一心一意”

如何讓模型像優秀學生一樣“沉下心來鉆研”?cc228資訊網——每日最新資訊28at.com

研究者借鑒了人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)。其原理類似于考試時給自己定規矩:“先專注當前方法,至少嘗試 10 分鐘再換思路”。cc228資訊網——每日最新資訊28at.com

技術細節上,TIP 會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。cc228資訊網——每日最新資訊28at.com

例如,當模型開始寫“Alternatively, we can consider…”時,TIP 會通過調整參數(懲罰強度 α 和持續時間 β),抑制這種過早的切換傾向。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

實驗結果顯示,加入 TIP 能讓模型在數學測試上的準確率上升,同時 UT Score 下降,說明既減少了無效切換,又提高了答案質量。cc228資訊網——每日最新資訊28at.com

例如在 AIME2024 數學競賽測試上,加入 TIP 的 QwQ-32B-Preview 模型準確率從 41.7% 提升至 45.8%,同時 UT Score 從 72.4 降至 68.2。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

并且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。cc228資訊網——每日最新資訊28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 幾乎同時分享了類似的觀察,cc228資訊網——每日最新資訊28at.com

對于 DeepSeek-R1 和所有推理模型,錯誤的答案更長,而正確的答案要短得多。cc228資訊網——每日最新資訊28at.com

基于此,他們提出一個簡單的解決辦法,稱為“簡潔解碼”(Laconic decoding)。cc228資訊網——每日最新資訊28at.com

并行運行 5 次模型,從答案中選擇 tokens 最少的。cc228資訊網——每日最新資訊28at.com

初步實驗結果表示,簡潔解碼在 AIME2024 測試上能提高 6%-7% 的準確率,比 Consensus Decoding 更好也更快。cc228資訊網——每日最新資訊28at.com

cc228資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2501.18585

參考鏈接:cc228資訊網——每日最新資訊28at.com

[1]https://x.com/tuzhaopeng/status/1885179412163027406cc228資訊網——每日最新資訊28at.com

[2]https://x.com/AlexGDimakis/status/1885447830120362099cc228資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨西風cc228資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: DeepSeek 威脅下,OpenAI 稱考慮開源舊 AI 模型

下一篇: 小鵬汽車放大招!5年0息0首付購車,最高貼息5.7萬引關注

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
一区在线视频| 亚洲精品一区在线观看| 欧美视频自拍偷拍| 精品国产一区二区三区不卡| 亚洲特级片在线| 极品少妇xxxx精品少妇| 韩日视频一区| 欧美一区欧美二区| 亚洲综合免费观看高清在线观看| 国产一区二三区好的| 极品中文字幕一区| 欧美一区二区三区四区视频| 亚洲精品水蜜桃| av亚洲精华国产精华精| 香蕉久久夜色精品国产| 亚洲高清中文字幕| 精品视频123区在线观看| 久久综合给合久久狠狠狠97色69| 一区二区三区高清在线| 成人的网站免费观看| 一本一道久久a久久精品综合蜜臀| 久久蜜桃av一区二区天堂| 麻豆视频一区二区| 一本色道婷婷久久欧美| 精品福利av导航| 精品夜夜嗨av一区二区三区| 国产一区二区高清| 欧美激情中文字幕| 成人开心网精品视频| 欧美日韩一区二区三区高清| 亚洲精品免费在线播放| 午夜精品一区二区在线观看| 欧美一区中文字幕| 麻豆精品一区二区| 免费亚洲婷婷| 亚洲精品国产高清久久伦理二区| 成人18视频日本| 丁香天五香天堂综合| 色婷婷av一区二区三区大白胸| 欧美少妇性性性| 欧美视频在线不卡| 亚洲午夜精品在线| 伊人久久大香线蕉av超碰演员| 精品国产网站在线观看| 国产在线精品一区二区三区不卡 | 欧美日韩在线电影| 亚洲国产一区二区视频| 亚洲茄子视频| 综合亚洲深深色噜噜狠狠网站| 午夜精品美女久久久久av福利| 欧美大尺度电影在线| 国产毛片精品一区| 欧美日韩国产高清一区二区| 日韩av网站免费在线| 久久国产精品亚洲va麻豆| 一区二区三区欧美| 亚洲免费影院| 国产伦精品一区二区三区| 亚洲国产99| 中文乱码免费一区二区| 午夜久久一区| 中文字幕av一区二区三区| 欧美日韩精品久久| 中文字幕综合网| 99精品国产福利在线观看免费| 亚洲乱码国产乱码精品精小说| 亚洲网友自拍| 在线视频观看日韩| 日韩理论片在线| 制服诱惑一区二区| 水野朝阳av一区二区三区| 免费日韩av片| 久久精品国产亚洲高清剧情介绍| 在线视频欧美区| 国产一区二区不卡在线| 日韩欧美自拍偷拍| 99精品国产一区二区三区不卡| 久久一区二区三区四区| 欧美不卡一区| 亚洲欧美韩国综合色| 玖玖视频精品| 欧美三级电影在线看| 久久久精品免费观看| 日本女人一区二区三区| 欧美另类久久久品| 成人短视频下载| 中文字幕欧美日本乱码一线二线| 亚洲国产欧美不卡在线观看| 午夜精品影院在线观看| 怡红院av一区二区三区| 国产一级精品aaaaa看| 卡一卡二国产精品| 久久久久久久综合日本| 1000部精品久久久久久久久| 天天色天天爱天天射综合| 69久久99精品久久久久婷婷| 欧美一区二区三区久久精品茉莉花| 中文字幕一区二区三区不卡| 久久精品成人| 不卡在线观看av| 亚洲精品免费在线观看| 欧美亚洲另类激情小说| 99久久伊人精品| 亚洲线精品一区二区三区| 欧美一区二区三区性视频| 亚洲私人影院| 国产真实乱对白精彩久久| 国产精品护士白丝一区av| 日本韩国一区二区三区视频| 99国产精品国产精品毛片| 亚洲永久免费视频| 欧美大胆人体bbbb| 亚洲一区三区视频在线观看| 国产91精品精华液一区二区三区 | 精品99视频| 国产在线看一区| 亚洲欧美日韩一区二区三区在线观看| 欧美三片在线视频观看| 狠狠色丁香久久综合频道| 久久国产精品99久久人人澡| 国产精品网站在线播放| 91精品国产综合久久久久久久 | 国产一区在线看| 亚洲卡通动漫在线| 日韩精品一区二区三区三区免费| 午夜综合激情| 欧美va天堂在线| 国产精品66部| 五月婷婷综合在线| 国产精品三级在线观看| 日韩一级欧美一级| 日本韩国一区二区| 最新亚洲激情| 91视视频在线观看入口直接观看www| 日韩不卡手机在线v区| 亚洲视频 欧洲视频| 欧美电视剧在线观看完整版| 日本韩国欧美一区| 99精品热6080yy久久| 91首页免费视频| 国产成人在线色| 久久99久久久久| 午夜影视日本亚洲欧洲精品| 国产精品久久三区| 久久精品视频网| 日韩亚洲国产中文字幕欧美| 在线精品国精品国产尤物884a| 91久久久久| 好吊色欧美一区二区三区四区 | 亚洲一本大道在线| 综合自拍亚洲综合图不卡区| 国产午夜精品美女毛片视频| 欧美成人一区二区三区在线观看| 欧美三级日本三级少妇99| 麻豆精品视频| 奶水喷射视频一区| 99视频一区| 日韩视频一区| 精品福利电影| 激情久久久久久| 亚洲午夜av| 99精品国产高清一区二区| 好看的亚洲午夜视频在线| 午夜精品亚洲| 欧美日韩在线精品一区二区三区| 欧美jjzz| 亚洲香蕉网站| 亚洲精品一区二区三区蜜桃久| 国产精品黄色| 伊人久久大香线蕉综合热线| 黄色av日韩| 日韩亚洲精品在线| 日韩欧美123| 91精品国产色综合久久不卡电影 | 欧美日韩一区自拍| 好吊色欧美一区二区三区四区 | 日韩成人dvd| 久久激情五月激情| 国产精品自产自拍| 大尺度一区二区| 欧美91视频| 亚洲精品国产系列| 六月婷婷一区| 欧美日韩精品三区| 日韩欧美视频一区| 国产欧美久久久精品影院| 自拍偷拍亚洲欧美日韩| 亚洲一区在线观看免费| 日日骚欧美日韩| 国产一区二三区| 欧美一区高清| 国产精品手机视频| 欧美在线视频全部完| 日韩限制级电影在线观看| 久久久精品人体av艺术| 亚洲精品网站在线观看| 欧洲日韩一区二区三区| 国产v综合v亚洲欧| 亚洲欧美日韩人成在线播放| 欧美日韩电影在线|