快科技9月18日消息,近日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1研究論文登上國(guó)際權(quán)威期刊《Nature》封面,DeepSeek在論文中正面回應(yīng)了有關(guān)模型蒸餾的質(zhì)疑。
DeepSeek表示,DeepSeek-V3-Base的訓(xùn)練數(shù)據(jù)僅來(lái)自普通網(wǎng)頁(yè)和電子書(shū),不包含任何合成數(shù)據(jù),在預(yù)訓(xùn)練冷卻階段,也沒(méi)有故意加入OpenAI生成的合成數(shù)據(jù),此階段使用的數(shù)據(jù)都是通過(guò)網(wǎng)頁(yè)抓取的。
不過(guò),DeepSeek也承認(rèn)已觀(guān)察到一些網(wǎng)頁(yè)包含大量OpenAI模型生成的答案,這可能導(dǎo)致基礎(chǔ)模型間接受益于其他強(qiáng)大模型的知識(shí)。
此外,DeepSeek-V3-Base的數(shù)據(jù)截止時(shí)間為2024年7月,當(dāng)時(shí)尚未發(fā)布任何公開(kāi)的先進(jìn)推理模型,這進(jìn)一步降低了從現(xiàn)有推理模型中無(wú)意蒸餾的可能性。
DeepSeek還強(qiáng)調(diào),R1并非通過(guò)復(fù)制OpenAI模型生成的推理示例來(lái)學(xué)習(xí),只是和大多數(shù)其他大語(yǔ)言模型一樣,R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的,因此它會(huì)吸收互聯(lián)網(wǎng)上已有的AI生成的內(nèi)容。
研究團(tuán)隊(duì)采用了純強(qiáng)化學(xué)習(xí)框架,并引入組相對(duì)策略?xún)?yōu)化算法,僅依據(jù)終答案的正確與否給予獎(jiǎng)勵(lì),而非讓模型模仿人類(lèi)推理路徑,讓模型在實(shí)踐中自然涌現(xiàn)出自我反思、自我驗(yàn)證等高級(jí)行為。
Hugging Face的機(jī)器學(xué)習(xí)工程師Lewis Tunstall也表示,現(xiàn)有證據(jù)已相當(dāng)明確地表明,僅使用純強(qiáng)化學(xué)習(xí)即可獲得極高性能,DeepSeek的推理方案可能足夠優(yōu)秀而無(wú)須使用OpenAI模型進(jìn)行蒸餾。

本文鏈接:http://www.rrqrq.com/showinfo-17-182482-0.htmlDeepSeek首次回應(yīng)蒸餾OpenAI質(zhì)疑 :沒(méi)有故意加入合成數(shù)據(jù)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com