7 月 20 日消息,英偉達(dá)今日推出了全新推理模型套件 OpenReasoning-Nemotron。該套件包含四個基于 Qwen-2.5 微調(diào)的模型,參數(shù)規(guī)模分別為 1.5B、7B、14B 和 32B,全部源自 6710 億參數(shù)的 DeepSeek R1 0528 大模型。通過“蒸餾”這一過程,英偉達(dá)成功將這一超大規(guī)模模型壓縮成更輕量的推理模型,降低了部署門檻,使得即使在標(biāo)準(zhǔn)游戲電腦上也能進行高級推理實驗,避免了高昂的 GPU 與云計算成本。

據(jù)了解,英偉達(dá)此次模型的核心優(yōu)勢并非在于訓(xùn)練手段的復(fù)雜創(chuàng)新,而是依托強大的數(shù)據(jù)支撐。公司利用 NeMo Skills 生成了 500 萬個涵蓋數(shù)學(xué)、科學(xué)與編程的解答數(shù)據(jù)集,并通過純監(jiān)督學(xué)習(xí)方式對模型進行微調(diào)。經(jīng)測試,32B 模型在 AIME24 數(shù)學(xué)競賽中獲得 89.2 分,在 HMMT 2 月賽中達(dá)到 73.8 分,甚至最小的 1.5B 模型也分別拿下 55.5 和 31.5 分,展現(xiàn)出良好的推理與解題能力。


英偉達(dá)將 OpenReasoning-Nemotron 定位為科研探索的有力工具,四個模型的完整檢查點將在 Hugging Face 開放下載,便于研究人員基于此進行強化學(xué)習(xí)等進一步實驗,或針對特定任務(wù)定制優(yōu)化。同時,模型支持“GenSelect 模式”,即每個問題可生成多種解答版本,通過篩選最優(yōu)解來提升準(zhǔn)確率。在該模式下,32B 模型在多項數(shù)學(xué)與編程基準(zhǔn)測試中已達(dá)到甚至超越 OpenAI o3-high 的表現(xiàn)。
值得一提的是,英偉達(dá)此次模型訓(xùn)練全程未引入強化學(xué)習(xí),僅采用監(jiān)督微調(diào),為社區(qū)提供了干凈且處于技術(shù)前沿的起點,便于未來開展強化學(xué)習(xí)相關(guān)研究。對于擁有高性能游戲 GPU 的玩家及個人開發(fā)者而言,這套模型讓本地運行接近業(yè)界最先進水平的推理模型成為現(xiàn)實。
本文鏈接:http://www.rrqrq.com/showinfo-45-14790-0.html英偉達(dá)推出 OpenReasoning-Nemotron 推理模型,普通游戲電腦也能玩轉(zhuǎn)高級推理
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com