昆侖萬(wàn)維在人工智能領(lǐng)域再度發(fā)力,于近期正式推出了其第二代獎(jiǎng)勵(lì)模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個(gè)不同規(guī)模的模型,參數(shù)量從6億至80億不等,均基于不同的基座模型構(gòu)建。令人矚目的是,Skywork-Reward-V2系列一經(jīng)問(wèn)世,便迅速在七大主流獎(jiǎng)勵(lì)模型評(píng)測(cè)中脫穎而出,全面奪得榜首,成為開(kāi)源獎(jiǎng)勵(lì)模型領(lǐng)域的新星。
獎(jiǎng)勵(lì)模型在強(qiáng)化學(xué)習(xí)從人類(lèi)反饋(RLHF)的過(guò)程中扮演著核心角色。為了打造這一全新系列的獎(jiǎng)勵(lì)模型,昆侖萬(wàn)維精心構(gòu)建了一個(gè)包含4000萬(wàn)對(duì)偏好對(duì)比的混合數(shù)據(jù)集Skywork-SynPref-40M。在數(shù)據(jù)處理策略上,團(tuán)隊(duì)創(chuàng)新性地采用了人機(jī)協(xié)同的兩階段流程,巧妙地將人工標(biāo)注的高質(zhì)量與模型的大規(guī)模處理能力相結(jié)合。在第一階段,團(tuán)隊(duì)首先構(gòu)建了一個(gè)初始的、未經(jīng)驗(yàn)證的偏好池,并借助大語(yǔ)言模型生成輔助屬性。隨后,人工標(biāo)注者依據(jù)嚴(yán)格的協(xié)議,借助外部工具和大語(yǔ)言模型,對(duì)部分?jǐn)?shù)據(jù)進(jìn)行精細(xì)審核,從而構(gòu)建出一個(gè)小規(guī)模但高質(zhì)量的金標(biāo)準(zhǔn)數(shù)據(jù)集。以此為引導(dǎo),結(jié)合大語(yǔ)言模型,團(tuán)隊(duì)進(jìn)一步生成了高質(zhì)量的銀標(biāo)準(zhǔn)數(shù)據(jù),并通過(guò)多輪迭代不斷優(yōu)化。進(jìn)入第二階段,團(tuán)隊(duì)轉(zhuǎn)向自動(dòng)化的大規(guī)模數(shù)據(jù)擴(kuò)展,利用訓(xùn)練完成的獎(jiǎng)勵(lì)模型執(zhí)行一致性過(guò)濾,既減輕了人工標(biāo)注的負(fù)擔(dān),又實(shí)現(xiàn)了偏好數(shù)據(jù)規(guī)模與質(zhì)量的完美平衡。
基于這一優(yōu)質(zhì)的混合偏好數(shù)據(jù),Skywork-Reward-V2系列展現(xiàn)出了廣泛的適用性和卓越的能力。它不僅在人類(lèi)偏好的通用對(duì)齊、客觀正確性、安全性、風(fēng)格偏差抵抗能力以及best-of-N擴(kuò)展能力等多個(gè)維度上表現(xiàn)出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎(jiǎng)勵(lì)模型評(píng)估基準(zhǔn)上全面達(dá)到了當(dāng)前最優(yōu)水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達(dá)到了上一代最強(qiáng)模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當(dāng)前開(kāi)源獎(jiǎng)勵(lì)模型的最高水平。最大規(guī)模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準(zhǔn)測(cè)試中均全面超越,成為了當(dāng)前整體表現(xiàn)最優(yōu)的開(kāi)源獎(jiǎng)勵(lì)模型。
Skywork-Reward-V2系列還具備廣泛覆蓋多維人類(lèi)偏好的能力。在通用偏好評(píng)估基準(zhǔn)上,它優(yōu)于多個(gè)參數(shù)更大的模型以及最新的生成型獎(jiǎng)勵(lì)模型;在客觀正確性評(píng)估方面,它在知識(shí)密集型任務(wù)中展現(xiàn)出了突出的表現(xiàn);在多項(xiàng)高級(jí)能力評(píng)估中,包括Best-of-N任務(wù)、偏見(jiàn)抵抗能力測(cè)試、復(fù)雜指令理解以及真實(shí)性判斷等,均取得了領(lǐng)先的成績(jī),充分展現(xiàn)了其出色的泛化能力與實(shí)用性。
數(shù)據(jù)篩選流程的高度擴(kuò)展性也顯著提升了獎(jiǎng)勵(lì)模型的性能。經(jīng)過(guò)精細(xì)篩選和過(guò)濾的偏好數(shù)據(jù),在多輪迭代訓(xùn)練中能夠持續(xù)有效地提升模型的整體性能,特別是在第二階段的全自動(dòng)數(shù)據(jù)擴(kuò)展中表現(xiàn)尤為顯著。早期版本的實(shí)驗(yàn)結(jié)果顯示,僅需使用1.8%的高質(zhì)量數(shù)據(jù)訓(xùn)練8B規(guī)模的模型,其性能就能超越當(dāng)前的70B級(jí)最高水平獎(jiǎng)勵(lì)模型,這充分印證了Skywork-SynPref數(shù)據(jù)集在規(guī)模和質(zhì)量上的顯著優(yōu)勢(shì)。
對(duì)于感興趣的研究人員和開(kāi)發(fā)者來(lái)說(shuō),可以通過(guò)以下鏈接獲取更多關(guān)于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。
舉報(bào) 0收藏 0打賞 0評(píng)論 0分享 0 更多>同類(lèi)資訊CoreWeave首商用英偉達(dá)Blackwell Ultra芯片,引領(lǐng)AI云計(jì)算新篇章07-04MiniMax-M1登頂開(kāi)源AI榜,技術(shù)實(shí)力彰顯,引領(lǐng)行業(yè)新風(fēng)潮07-04英偉達(dá)股價(jià)攀升至新高,市值突破3.89萬(wàn)億美元成全球科技新領(lǐng)袖07-04
微軟年內(nèi)二度大規(guī)模裁員,近9000崗位受影響07-04
ABB推出三款新型機(jī)器人,瞄準(zhǔn)中國(guó)中型企業(yè)自動(dòng)化需求IT之家 7 月 3 日消息,據(jù)路透社報(bào)道,瑞士工程巨頭 ABB周三宣布,將面向中國(guó)市場(chǎng)推出三款新型工廠機(jī)器人系列,瞄準(zhǔn)對(duì)自動(dòng)化需求日益增長(zhǎng)的中國(guó)中型企業(yè)。 根據(jù)國(guó)際機(jī)器人聯(lián)合會(huì)的數(shù)據(jù),中國(guó)已成為全球最大的…07-04
中國(guó)移動(dòng)中興通訊聯(lián)手打造“聯(lián)創(chuàng)+”自智網(wǎng)絡(luò)實(shí)驗(yàn)室,加速科技創(chuàng)新成果轉(zhuǎn)化近日,中國(guó)移動(dòng)通信集團(tuán)有限公司與中興通訊股份有限公司在北京舉行“聯(lián)創(chuàng)+”自智網(wǎng)絡(luò)開(kāi)放實(shí)驗(yàn)室揭牌儀式。此舉旨在貫徹國(guó)家科技創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,加速自智網(wǎng)絡(luò)高階發(fā)展。 中國(guó)移動(dòng)副總經(jīng)理李慧鏑強(qiáng)調(diào),通信產(chǎn)業(yè)是推動(dòng)社會(huì)…07-04
榮耀Magic V5深度評(píng)測(cè):極致輕薄下的性能與智能新高度在性能上,榮耀Magic V5并沒(méi)有因?yàn)檩p薄而向性能妥協(xié),這恰好就是用戶的理想型。如果你想要擁有一部折疊屏手機(jī)雙持的話,那么榮耀Magic V5一定就是一個(gè)不錯(cuò)的選擇,不僅輕薄,而且還沒(méi)有傳輸壁壘,想怎么傳…07-04
智譜AI上海子公司增資近50倍,寰宇科技公司資本躍升至5億07-04
優(yōu)必選杭州布局,新設(shè)智行機(jī)器人公司,注冊(cè)資本高達(dá)5000萬(wàn)!07-04
歌爾股份杭州新設(shè)歌爾泰克,注冊(cè)資本達(dá)500萬(wàn)引關(guān)注07-04
中石油昆侖資本攜手山東未來(lái)機(jī)器人,共譜智能制造新篇章07-04
AI賦能熱輻射超材料設(shè)計(jì),批量創(chuàng)制方案突破傳統(tǒng)設(shè)計(jì)上限金屬基復(fù)合材料全國(guó)重點(diǎn)實(shí)驗(yàn)室、上海交通大學(xué)材料科學(xué)與工程學(xué)院、張江高等研究院未來(lái)材料創(chuàng)制中心教授周涵表示,熱輻射超材料的設(shè)計(jì)難點(diǎn)在于缺乏普適性方法,即缺乏多材料、多結(jié)構(gòu)、多維度、多參數(shù)的全自動(dòng)設(shè)計(jì)范式及通用方…07-03
Fortinet連續(xù)第二年榮膺Gartner企業(yè)級(jí)WLAN魔力象限領(lǐng)導(dǎo)者Fortinet 全面集成至 Fortinet Security Fabric 的企業(yè)級(jí)有線和無(wú)線局域網(wǎng)解決方案,為用戶打造經(jīng)實(shí)踐檢驗(yàn)、以人工智能驅(qū)動(dòng)的安全平臺(tái),全面融合網(wǎng)絡(luò)與安全性,助力用戶降低復(fù)雜性、緩…07-03外灘大會(huì)AI科創(chuàng)賽啟幕,探索生活變革、金融智能與安全防護(hù)新應(yīng)用07-03
外灘大會(huì)AI科創(chuàng)賽盛啟,三大領(lǐng)域角逐百萬(wàn)獎(jiǎng)金共促創(chuàng)新7月3日,2025 Inclusion·外灘大會(huì)科技智能創(chuàng)新賽(簡(jiǎn)稱(chēng)“外灘大會(huì)AI科創(chuàng)賽”)正式啟動(dòng),本屆大賽在上海市科學(xué)技術(shù)委員會(huì)指導(dǎo)下,聚焦AI智能硬件、金融智能、AI安全等領(lǐng)域創(chuàng)新應(yīng)用,設(shè)置人工智能硬…07-03點(diǎn)擊查看更多 +全站最新
黑洞之謎:高維度或是解開(kāi)其本質(zhì)的關(guān)鍵線索
長(zhǎng)四丙火箭西昌再建功,成功發(fā)射試驗(yàn)二十八號(hào)B星01星入軌
哈工大錄取通知書(shū):宇宙級(jí)浪漫,攜夢(mèng)想上太空
小鵬G7正式上市挑戰(zhàn)Model Y,何小鵬:智能算力新紀(jì)元開(kāi)啟,9分鐘大定破萬(wàn)
豐田借勢(shì)漲價(jià),或加速供應(yīng)鏈倒戈,國(guó)產(chǎn)電車(chē)面臨新挑戰(zhàn)
小鵬G7正式上市:L3級(jí)算力引領(lǐng)智駕新時(shí)代,起售價(jià)19.58萬(wàn)元熱門(mén)內(nèi)容
微軟年內(nèi)二度大規(guī)模裁員,近9000崗位受影響
ABB推出三款新型機(jī)器人,瞄準(zhǔn)中國(guó)中型企業(yè)自動(dòng)化需求
中國(guó)移動(dòng)中興通訊聯(lián)手打造“聯(lián)創(chuàng)+”自智網(wǎng)絡(luò)實(shí)驗(yàn)室,加速科技創(chuàng)新成果轉(zhuǎn)化
榮耀Magic V5深度評(píng)測(cè):極致輕薄下的性能與智能新高度
智譜AI上海子公司增資近50倍,寰宇科技公司資本躍升至5億
優(yōu)必選杭州布局,新設(shè)智行機(jī)器人公司,注冊(cè)資本高達(dá)5000萬(wàn)!
本文鏈接:http://www.rrqrq.com/showinfo-45-14321-0.html昆侖萬(wàn)維發(fā)布Skywork-Reward-V2獎(jiǎng)勵(lì)模型,全面奪魁七大主流評(píng)測(cè)榜單
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 中國(guó)醫(yī)療大模型領(lǐng)跑全球,畢馬威展望智能醫(yī)療市場(chǎng)巨大潛力
下一篇: CoreWeave首商用英偉達(dá)Blackwell Ultra芯片,引領(lǐng)AI云計(jì)算新篇章