9 月 18 日消息,由 DeepSeek 團隊共同完成、梁文鋒擔任通訊作者的 DeepSeek-R1 推理模型研究論文,登上了國際權威期刊《自然(Nature)》第 645 期的封面。與今年 1 月發布的 DeepSeek-R1 的初版論文相比,本次論文披露了更多模型訓練的細節。
據悉,DeepSeek-R1 也是全球首個經過同行評審的主流大語言模型。Nature 評價道:目前幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終于被 DeepSeek 打破”。
論文摘要顯示,通用推理一直是人工智能(AI)領域一項長期且艱巨的挑戰。近年來,以大型語言模型(LLMs)、和思維鏈(CoT)提示為代表的技術突破,已在基礎推理任務上取得了顯著成功。然而,這種成功在很大程度上依賴于大量人工標注的演示數據,且模型在處理更復雜問題時的能力仍顯不足。
研究表明,大型語言模型的推理能力可通過純強化學習(RL)來激發,無需依賴人工標注的推理軌跡。所提出的強化學習框架能夠促進高級推理模式的自主形成,例如自我反思、驗證和動態策略調整。
因此,經訓練的模型在數學、編程競賽和 STEM(科學、技術、工程、數學)領域等可驗證任務上展現出更優異的性能,優于通過傳統監督學習(基于人工演示數據)訓練的同類模型。此外,這些大規模模型所呈現的自主形成的推理模式,可被系統性地用于指導和提升小型模型的推理能力。
附論文鏈接:
https://www.nature.com/articles/s41586-025-09422-z
本文鏈接:http://www.rrqrq.com/showinfo-45-27696-0.htmlDeepSeek-R1 論文登上《自然》封面,通訊作者為梁文鋒
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com