快科技9月18日消息,近日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1研究論文登上國際權(quán)威期刊《Nature》封面,DeepSeek在論文中正面回應(yīng)了有關(guān)模型蒸餾的質(zhì)疑。
DeepSeek表示,DeepSeek-V3-Base的訓(xùn)練數(shù)據(jù)僅來自普通網(wǎng)頁和電子書,不包含任何合成數(shù)據(jù),在預(yù)訓(xùn)練冷卻階段,也沒有故意加入OpenAI生成的合成數(shù)據(jù),此階段使用的數(shù)據(jù)都是通過網(wǎng)頁抓取的。
不過,DeepSeek也承認已觀察到一些網(wǎng)頁包含大量OpenAI模型生成的答案,這可能導(dǎo)致基礎(chǔ)模型間接受益于其他強大模型的知識。
此外,DeepSeek-V3-Base的數(shù)據(jù)截止時間為2024年7月,當時尚未發(fā)布任何公開的先進推理模型,這進一步降低了從現(xiàn)有推理模型中無意蒸餾的可能性。
DeepSeek還強調(diào),R1并非通過復(fù)制OpenAI模型生成的推理示例來學(xué)習(xí),只是和大多數(shù)其他大語言模型一樣,R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的,因此它會吸收互聯(lián)網(wǎng)上已有的AI生成的內(nèi)容。
研究團隊采用了純強化學(xué)習(xí)框架,并引入組相對策略優(yōu)化算法,僅依據(jù)終答案的正確與否給予獎勵,而非讓模型模仿人類推理路徑,讓模型在實踐中自然涌現(xiàn)出自我反思、自我驗證等高級行為。
Hugging Face的機器學(xué)習(xí)工程師Lewis Tunstall也表示,現(xiàn)有證據(jù)已相當明確地表明,僅使用純強化學(xué)習(xí)即可獲得極高性能,DeepSeek的推理方案可能足夠優(yōu)秀而無須使用OpenAI模型進行蒸餾。
本文鏈接:http://www.rrqrq.com/showinfo-17-182482-0.htmlDeepSeek首次回應(yīng)蒸餾OpenAI質(zhì)疑 :沒有故意加入合成數(shù)據(jù)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com