快科技5月9日消息,近日,國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫的重要升級。
在Torch-MUSA中,用戶只需指定torch.device("musa"),即可將現(xiàn)有的PyTorch模型遷移到MUSA架構(gòu)的GPU上運(yùn)行,無需大幅修改代碼,目前Torch-MUSA已完全開源,可通過GitHub獲取源代碼。
作為本次升級的核心亮點(diǎn),Torch-MUSA v2.0.0率先在國產(chǎn)GPU上實(shí)現(xiàn)了對FP8數(shù)據(jù)類型的完整支持。
FP8是當(dāng)前AI計(jì)算的一種低精度格式,在支持原生FP8的GPU上,大語言模型訓(xùn)練采用FP8混合精度可大幅提高GPU算力,降低顯存占用。
摩爾線程基于新一代MUSA Compute Capability 3.1計(jì)算架構(gòu)的全功能GPU原生支持FP8計(jì)算,為Torch-MUSA v2.0.0實(shí)現(xiàn)FP8矩陣乘法和分布式通信優(yōu)化提供了基礎(chǔ)。
依托這一底層架構(gòu)優(yōu)勢,Torch-MUSA v2.0.0能夠充分發(fā)揮FP8的計(jì)算效能,顯著提升大語言模型訓(xùn)練和推理的效率。
Torch-MUSA v2.0.0在MUSA計(jì)算平臺引入多項(xiàng)創(chuàng)新功能,進(jìn)一步提升深度學(xué)習(xí)任務(wù)的執(zhí)行效率,主要包括:
1、新增虛擬內(nèi)存管理支持:
MUSA虛擬內(nèi)存管理技術(shù)能夠有效緩解GPU內(nèi)存碎片化問題,降低模型訓(xùn)練過程中的峰值內(nèi)存占用,特別適用于FSDP、DeepSpeed和Megatron-LM等主流大模型訓(xùn)練框架。
2、新增MUSA Graph支持:
MUSA Graph技術(shù)將多個(gè)MUSA內(nèi)核整合到一個(gè)圖中,通過單次CPU調(diào)度大幅減少啟動開銷,提升計(jì)算效率,同時(shí)與CUDA Graph接口高效兼容。
3、torch.compile增加Triton后端支持:
為torch.compile提供了Triton-MUSA后端支持,開發(fā)者可以直接使用PyTorch原生接口,獲得更高效的性能表現(xiàn)。
不僅如此,Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基礎(chǔ)上,還新增了對PyTorch 2.5.0的支持,使開發(fā)者能夠在基于MUSA Compute Capability 3.1計(jì)算架構(gòu)的全功能GPU上,無縫運(yùn)行新版本的PyTorch。
未來Torch-MUSA還將繼續(xù)跟進(jìn)PyTorch的版本更新,計(jì)劃支持更高版本的PyTorch。

本文鏈接:http://www.rrqrq.com/showinfo-24-148944-0.html國產(chǎn)GPU突破!摩爾線程發(fā)布Torch-MUSA v2.0.0:FP8原生支持
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]