6 月 4 日消息,快手 Kwaipilot 團隊近日開源了 KwaiCoder-AutoThink-preview 自動思考大模型,針對近期深度思考大模型存在的“過度思考”問題進行了深入研究。團隊提出了一種全新的自動思考模型訓(xùn)練范式,同時基于傳統(tǒng)強化學(xué)習(xí)算法(GRPO),提出了帶有過程監(jiān)督的強化學(xué)習(xí)方法 Step-SRPO,以進一步提升模型在復(fù)雜任務(wù)中的表現(xiàn)。

據(jù)介紹,該模型融合了“思考”和“非思考”能力,號稱“DeepSeek-V3 & R1 合體”,具備根據(jù)問題難度自動切換思考形態(tài)的能力。通過進行這種思考形態(tài)訓(xùn)練,模型在多個“思考”和“非思考”評測榜單上均實現(xiàn)了性能提升,其中在部分代碼和數(shù)學(xué)類的任務(wù)上,開啟自動思考模式下的模型得分提升高達 20 分左右。官方表示,在部分榜單中,即使模型沒有開啟思考模式,受益于更優(yōu)的推理形態(tài),性能也有小幅上漲。

快手技術(shù)表示,Kwaipilot 未來將基于 preview 版本模型,進一步增強推理能力,支持更完善的思考中工具使用能力,也會將全部技術(shù)細(xì)節(jié)、訓(xùn)練方法開源。附模型開源地址:
https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview
本文鏈接:http://www.rrqrq.com/showinfo-45-13494-0.htmlDeepSeek-V3 & R1 合體:快手開源 "Auto Think " 大模型,可根據(jù)問題自動調(diào)節(jié)思考深度
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]
上一篇: Mac 版 ChatGPT 變身生產(chǎn)力神器:AI 錄音 + 云文件洞察,打造團隊協(xié)作最佳助手
下一篇: 韓國總統(tǒng)李在明承諾 100 萬億韓元 AI 投資計劃,大力擴展基礎(chǔ)設(shè)施建設(shè)