国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

來源: 責編: 時間:2025-02-15 15:48:31 119觀看
導讀 32B 推理模型,僅用 1/8 數據,與同尺寸 DeepSeek-R1 打成平手。就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學等機構聯手發布了一款 SOTA 級推理模型 ——OpenThinker-32B,并同時開源了高達 114k 的訓練數據。項目

32B 推理模型,僅用 1/8 數據,與同尺寸 DeepSeek-R1 打成平手。MtQ28資訊網——每日最新資訊28at.com

就在剛剛,來自斯坦福、UC 伯克利、華盛頓大學等機構聯手發布了一款 SOTA 級推理模型 ——OpenThinker-32B,并同時開源了高達 114k 的訓練數據。MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

項目主頁:https://www.open-thoughts.ai/blog/scaleMtQ28資訊網——每日最新資訊28at.com

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32BMtQ28資訊網——每日最新資訊28at.com

數據集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114kMtQ28資訊網——每日最新資訊28at.com

團隊發現:采用經 DeepSeek-R1 驗證標注(基于 R1 蒸餾)的大規模優質數據集,便可訓練出 SOTA 的推理模型。MtQ28資訊網——每日最新資訊28at.com

具體方法,就是通過數據規模化、推理過程驗證以及模型規模擴展。MtQ28資訊網——每日最新資訊28at.com

由此得到的 OpenThinker-32B,在數學、代碼和科學等多個基準測試中,OpenThinker-32B 性能直接碾壓了李飛飛團隊 s1 和 s1.1 模型,直逼 R1-Distill-32B。MtQ28資訊網——每日最新資訊28at.com

值得一提的是,相比于使用了 800k 數據(包含 600k 個推理樣本)的 R1-Distill,OpenThinker-32B 僅用了 114k 數據,就能拿下幾乎同等的優異成績。MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

結果均通過開源評估框架 Evalchemy 計算得出

除此之外,OpenThinker-32 還把模型權重、數據集、數據生成代碼、訓練代碼上,全部都給公開了!MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

數據策展

研究人員使用了與之前訓練 OpenThinker-7B 模型相同的 OpenThoughts-114k 數據集來訓練 OpenThinker-32B。MtQ28資訊網——每日最新資訊28at.com

他們利用 DeepSeek-R1 模型,收集了精心挑選的 17.3 萬個問題的推理過程和解答嘗試。然后將這些原始數據作為 OpenThoughts-Unverfied-173k 數據集公開發布。MtQ28資訊網——每日最新資訊28at.com

整個流程的最后一步是,如果推理過程未能通過驗證,就過濾掉相應的數據樣本。MtQ28資訊網——每日最新資訊28at.com

下圖可視化地展示了整個過程。MtQ28資訊網——每日最新資訊28at.com

研究團隊首先輸入源數據或問題提示,這些內容可以來自不同的領域和平臺,如 BAAI / TACO、DeepMind、Python 提交等,涉及代碼、謎題、科學和數學等多個方面。MtQ28資訊網——每日最新資訊28at.com

接著這些多元的輸入會進入核心的處理模塊 ——DeepSeek-R1,在這里對數據進行分析與處理。這些問題會被分成三個方面,分別是:科學類問題、數學與謎題和代碼。MtQ28資訊網——每日最新資訊28at.com

有些結果不需要驗證,可能是簡單的分析或直接輸出。對于一些需要深入驗證的內容,利用大語言模型(LLM)采用與 GT(Ground Truth)對比的方式進行評判。如果是代碼,執行代碼并進行單元測試,確保代碼的正確性和有效性。MtQ28資訊網——每日最新資訊28at.com

最后能將不同方向的結果結合起來,生成開放的思考和更為綜合的解決方案。MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

研究團隊更新了最終的 OpenThoughts-114k 數據集,加入了一個名為「metadata」的配置,其中包含了一些用于數據集構建的額外列:MtQ28資訊網——每日最新資訊28at.com

problemMtQ28資訊網——每日最新資訊28at.com

ground_truth_solutionMtQ28資訊網——每日最新資訊28at.com

test_cases (code only)MtQ28資訊網——每日最新資訊28at.com

starter_code (code only)MtQ28資訊網——每日最新資訊28at.com

DeepSeek_reasoningMtQ28資訊網——每日最新資訊28at.com

DeepSeek_solutionMtQ28資訊網——每日最新資訊28at.com

domainMtQ28資訊網——每日最新資訊28at.com

sourceMtQ28資訊網——每日最新資訊28at.com

這些額外的元數據將使得這個數據集更容易用于新的場景,例如數據過濾、領域切換、驗證檢查以及更改推理過程的模板。MtQ28資訊網——每日最新資訊28at.com

這些額外的元數據將得使該數據集使用起來更加容易,僅需一行代碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。MtQ28資訊網——每日最新資訊28at.com

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究團隊表示,他們期待看到社區利用這些問題和標準答案,在 OpenThinker 模型上進行強化學習(RL)的研究。DeepScaleR 已經證明,規模較小時,這種方法效果特別好。MtQ28資訊網——每日最新資訊28at.com

驗證

為了得到最終的 OpenThoughts-114k 數據集,研究團隊對答案進行了驗證,并剔除了不正確的回答。MtQ28資訊網——每日最新資訊28at.com

如下表所示,保留那些未通過驗證的推理過程可能會損害性能,盡管未經驗證的模型與其他 32B 推理模型相比仍然表現良好。MtQ28資訊網——每日最新資訊28at.com

驗證的作用在于,在擴大訓練提示集的多樣性和規模的同時,保持 R1 注釋的質量。另一方面,未經驗證的數據可以更容易地擴展,因此也值得進一步探索。MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

對于代碼問題,他們通過對照已有的測試用例來驗證解答嘗試,從而完成推理過程的驗證。MtQ28資訊網——每日最新資訊28at.com

受到代碼執行過程中所面臨挑戰的啟發,他們在 Curator 中實現了一個代碼執行框架,使用戶能夠大規模、安全地執行代碼,并對照預期輸出進行驗證。MtQ28資訊網——每日最新資訊28at.com

對于數學問題,研究團隊使用一個 LLM(大語言模型)評判器來進行驗證,它會同時接收標準答案和 DeepSeek-R1 的解答嘗試。MtQ28資訊網——每日最新資訊28at.com

結果發現,在數據生成過程中,使用 LLM 評判器而不是更嚴格的解析引擎(Math-Verify)進行驗證,可以獲得更高的有效數據率,并能訓練出性能更好的下游模型。MtQ28資訊網——每日最新資訊28at.com

MtQ28資訊網——每日最新資訊28at.com

訓練

研究團隊使用 LLaMa-Factory 對 Qwen2.5-32B-Instruct 在 OpenThoughts-114k 數據集上進行了三輪微調,上下文長度為 16k。完整訓練配置可在 GitHub 中找到。MtQ28資訊網——每日最新資訊28at.com

OpenThinker-32B 在 AWS SageMaker 集群上使用四個 8xH100 P5 節點訓練了 90 小時,累計使用了 2,880 個 H100 小時。MtQ28資訊網——每日最新資訊28at.com

同時,OpenThinker-32B-Unverified 在 Leonardo 超級計算機上使用 96 個 4xA100 節點(每個 GPU64GB)訓練了 30 小時,累計使用了 11,520 個 A100 小時。MtQ28資訊網——每日最新資訊28at.com

評估

研究團隊使用開源評估庫 Evalchemy(煉金術)對所有模型進行評估。MtQ28資訊網——每日最新資訊28at.com

對于 AIME24 和 AIME25,他們通過平均五次運行的結果來計算準確率。評估配置使用 0.7 的溫度參數,將模型響應限制在 32,768 個 token 以內,不添加任何額外的系統或用戶提示詞,也不使用任何特殊的解碼策略(如預算強制)。MtQ28資訊網——每日最新資訊28at.com

當啟動 OpenThoughts 項目時,他們設定了一個目標,即創建一個性能可以達到 DeepSeek-R1-Distill-Qwen-32B 的開放數據模型。MtQ28資訊網——每日最新資訊28at.com

現在這個差距已經幾乎消除。MtQ28資訊網——每日最新資訊28at.com

最后,研究團隊為社區在過去幾周在構建開放數據推理模型方面取得的快速進展感到振奮,并期待基于彼此的洞見繼續向前發展。MtQ28資訊網——每日最新資訊28at.com

OpenThinker-32B 的開源,證明了數據、驗證和模型規模的協同作用是提升推理能力的關鍵。MtQ28資訊網——每日最新資訊28at.com

這一成果不僅推動了開源推理模型的發展,也為整個 AI 社區提供了寶貴的資源和啟示。MtQ28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era),原標題《直逼 DeepSeek-R1-32B,碾壓李飛飛 s1!UC 伯克利等開源全新 SOTA 推理模型》MtQ28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B,UC 伯克利等開源全新 SOTA 推理模型 OpenThinker-32B

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 阿里巴巴蔡崇信:AI 競爭很激烈,DeepSeek 轉變行業思路

下一篇: 4S店強制買車險?學會這句話,委婉拒絕不糾結!

標簽:
  • 熱門焦點
    SQL Error: select * from ***_ecms_news13 where id in(233,115,193,247,22,128,84,,129) limit 9
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
精品99一区二区三区| 日本视频一区二区| 亚洲日本丝袜连裤袜办公室| 欧美日韩三级一区| 国产精品一区一区| 日韩成人午夜电影| 亚洲高清一区二区三区| 欧美精品一区二区久久婷婷| 久久国产主播精品| 亚洲国产一区二区精品专区| 国产91在线|亚洲| 国产成人亚洲综合a∨猫咪| 精品国内二区三区| 91精品国产综合久久久久久漫画 | 日本一区二区久久| 性色一区二区三区| 国产成人自拍网| 国产成人免费视频网站高清观看视频| 精品一区二区三区香蕉蜜桃| 亚洲成av人影院在线观看网| 久久精品国产99国产| 国产福利一区在线观看| 91色porny在线视频| 亚洲精品免费观看| 91久久国产综合久久| 日韩欧美一区二区不卡| 国产精品美女久久久久久久| 亚洲国产成人av网| 不卡一区二区三区四区| 一区二区三区精品视频在线观看| 国产调教视频一区| 亚洲福利一区二区| 成人久久18免费网站麻豆| 激情综合网址| 欧美怡红院视频| 国产精品乱码一区二区三区| 日本道色综合久久| 久久久国产一区二区三区四区小说| 欧美国产日韩一二三区| 视频一区二区三区在线| 成人黄色av网站在线| 国产精品日本欧美一区二区三区| 成人app软件下载大全免费| 国产一区二区高清不卡| 色综合视频在线观看| 欧美午夜电影一区| 国产三级欧美三级| 韩国视频一区二区| 午夜在线a亚洲v天堂网2018| 欧美一级片在线| 天堂久久一区二区三区| 欧美日韩mv| 欧美刺激脚交jootjob| 午夜成人免费电影| 国产精品久久九九| 欧美激情在线一区二区三区| 国产一区二区三区香蕉| 久久精品一区二区国产| 亚洲激情在线激情| fc2成人免费人成在线观看播放 | 亚洲女人****多毛耸耸8| 99精品国产91久久久久久| 在线电影院国产精品| 午夜视频在线观看一区二区| 亚洲一区3d动漫同人无遮挡| 中文字幕一区二区三区在线观看| 成人av第一页| 日韩视频在线一区二区| 成人爽a毛片一区二区免费| 欧美猛男男办公室激情| 九九视频精品免费| 这里只有精品99re| 国产99久久久国产精品潘金网站| 欧美一区二区三区视频在线观看| 国产一区在线看| 26uuu另类欧美亚洲曰本| 97超碰欧美中文字幕| 成人免费一区二区三区视频 | 91免费看视频| 亚洲欧美激情插| 色婷婷精品大在线视频| 国产一区三区三区| 欧美电影免费观看高清完整版在线观看| 不卡一区在线观看| 中文字幕一区二区三区四区不卡| 亚洲尤物精选| 韩国av一区二区三区| 久久久亚洲欧洲日产国码αv| 亚洲成人动漫精品| 欧美日韩一区二区三区视频| 成人爽a毛片一区二区免费| 色狠狠色狠狠综合| 国产白丝精品91爽爽久久| 国产精品美女一区二区三区| 91黄视频在线观看| 成人激情免费网站| 亚洲成a人在线观看| 欧美不卡一区二区| 国产精品亚洲产品| 成人av电影免费在线播放| 一区二区高清视频在线观看| 91麻豆精品国产91久久久使用方法| 国产精品一二三四| 日韩精品综合一本久道在线视频| 国产精品av一区二区| 激情欧美日韩一区二区| 亚洲色图制服丝袜| 日韩一区二区三区在线视频| 国产美女精品| 一区二区三区日韩欧美| 欧美xfplay| 欧美性色黄大片| 国产视频精品网| 欧美日本亚洲| 成人网男人的天堂| 久久精品国产精品亚洲红杏| 中文字幕亚洲不卡| 亚洲中字在线| 一区二区av| 亚洲小说区图片区| 欧美福利网址| 99久久99久久精品免费观看| 精品一区二区三区欧美| 奇米综合一区二区三区精品视频| 悠悠色在线精品| 国产精品一区免费观看| 黄色一区二区三区四区| 午夜精品网站| 欧美日韩天天操| 午夜精品网站| 国产综合精品一区| 欧美日韩一视频区二区| 欧美在线视频二区| 五月天激情综合| 日本不卡一区二区三区高清视频| 亚洲国产精品久久人人爱蜜臀| 一区二区理论电影在线观看| 亚洲视频一区在线| 国产精品二区一区二区aⅴ污介绍| 国产亚洲视频系列| 亚洲免费电影在线| 亚洲午夜久久久久久久久电影网| 日韩一卡二卡三卡国产欧美| 精品日韩99亚洲| 亚洲欧美一区二区三区国产精品| 亚洲欧美视频一区| 日韩成人一区二区三区在线观看| 午夜不卡av免费| 国产一区二区精品久久91| 成人久久久精品乱码一区二区三区| 亚洲与欧洲av电影| 蜜桃av一区二区三区电影| 久久成人免费电影| av不卡在线播放| 1024亚洲| 欧美日韩不卡一区二区| 国产欧美视频在线观看| 亚洲最大的成人av| 国产成人一级电影| 亚洲国产一区二区三区高清 | 美女任你摸久久| 欧美国产高潮xxxx1819| 男人的天堂亚洲在线| 日韩一级二级三级精品视频| 自拍视频在线观看一区二区| 久久er99热精品一区二区| 91免费看片在线观看| 日本韩国精品一区二区在线观看| 久久免费偷拍视频| 五月激情综合婷婷| 91麻豆高清视频| 欧美亚洲一区二区三区四区| 国产精品拍天天在线| 国产真实乱子伦精品视频| 亚洲激情啪啪| 欧美一区二区三区免费视频| 亚洲一区二区三区四区不卡| 97精品久久久久中文字幕 | 羞羞答答国产精品www一本| 久久精品人人做人人爽人人| 蜜桃视频免费观看一区| 男人操女人的视频在线观看欧美| 午夜精品亚洲| 欧美精品一区二区久久久| 强制捆绑调教一区二区| 亚洲欧洲精品一区二区| 国产亚洲一二三区| 成人福利视频在线看| 精品视频免费在线| 欧美精品一区二区三区在线| 精品一区二区在线免费观看| 亚洲女同同性videoxma| 亚洲综合久久av| 国产欧美高清| 一片黄亚洲嫩模| 日韩视频久久| 亚洲午夜视频在线| 国产亚洲综合精品| 在线一区免费观看| 国产精品第13页|