近期,科技界傳來(lái)一則引人注目的消息,英偉達(dá)在大型語(yǔ)言模型領(lǐng)域取得了顯著進(jìn)展,推出了名為L(zhǎng)lama-3.1-Nemotron-Ultra-253B-v1(以下簡(jiǎn)稱Nemotron Ultra)的先進(jìn)模型。這款模型擁有2530億個(gè)參數(shù),旨在解決當(dāng)前大型語(yǔ)言模型在計(jì)算成本、性能與擴(kuò)展性方面的挑戰(zhàn)。
隨著人工智能技術(shù)在數(shù)字基礎(chǔ)設(shè)施中的廣泛應(yīng)用,企業(yè)和開發(fā)者面臨著在計(jì)算效率與實(shí)際部署之間尋找最佳平衡點(diǎn)的難題。盡管大型語(yǔ)言模型在自然語(yǔ)言理解和對(duì)話能力上取得了長(zhǎng)足進(jìn)步,但其龐大的規(guī)模往往導(dǎo)致效率低下,限制了大規(guī)模應(yīng)用的可能性。
Nemotron Ultra正是針對(duì)這一現(xiàn)狀應(yīng)運(yùn)而生。該模型基于meta的Llama-3.1-405B-Instruct架構(gòu),并進(jìn)行了全面優(yōu)化,以滿足商業(yè)和企業(yè)的實(shí)際需求。無(wú)論是工具使用還是多輪復(fù)雜指令的執(zhí)行,Nemotron Ultra都能展現(xiàn)出卓越的性能。
Nemotron Ultra采用了創(chuàng)新的僅解碼器密集Transformer結(jié)構(gòu),并通過神經(jīng)架構(gòu)搜索(NAS)算法進(jìn)行了優(yōu)化。其獨(dú)特之處在于引入了跳躍注意力機(jī)制,這一機(jī)制能夠在部分層中省略注意力模塊或?qū)⑵涮鎿Q為簡(jiǎn)單的線性層,從而提高了模型的推理效率。
前饋網(wǎng)絡(luò)(FFN)融合技術(shù)也是Nemotron Ultra的一大亮點(diǎn)。通過將多層FFN合并為更寬但更少的層,該技術(shù)顯著縮短了模型的推理時(shí)間,同時(shí)保持了卓越的性能。這一特性使得Nemotron Ultra能夠處理長(zhǎng)達(dá)128K token的上下文窗口,非常適合用于高級(jí)RAG系統(tǒng)和多文檔分析。
在部署效率方面,Nemotron Ultra同樣實(shí)現(xiàn)了重大突破。該模型能夠在單個(gè)8xH100節(jié)點(diǎn)上運(yùn)行推理,極大地降低了數(shù)據(jù)中心的成本,提高了企業(yè)開發(fā)者的可及性。這一特性使得更多企業(yè)和開發(fā)者能夠利用大型語(yǔ)言模型的優(yōu)勢(shì),推動(dòng)人工智能技術(shù)的廣泛應(yīng)用。
為了進(jìn)一步優(yōu)化模型性能,英偉達(dá)還采用了多階段后訓(xùn)練方法。這包括在代碼生成、數(shù)學(xué)、對(duì)話和工具調(diào)用等任務(wù)上進(jìn)行監(jiān)督微調(diào),以及使用群體相對(duì)策略優(yōu)化(GRPO)算法進(jìn)行強(qiáng)化學(xué)習(xí)(RL)。這些步驟確保了Nemotron Ultra在基準(zhǔn)測(cè)試中表現(xiàn)出色,并能夠更好地適應(yīng)人類交互的偏好。





















本文鏈接:http://www.rrqrq.com/showinfo-45-12225-0.html英偉達(dá)新推2530億參數(shù)模型,Nemotron Ultra助力AI高效部署
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 字節(jié)跳動(dòng)VAPO框架:Qwen2.5-32B數(shù)學(xué)推理能力大幅提升,超越Deepseek-R1