9 月 6 日消息,據商湯科技官方消息,近日,商湯大裝置 SenseCore 與昇騰 384 超節點率先完成全面適配,在功能、性能驗證上達到預期目標。
據官方介紹,超節點(SuperPod)是一種通過高速互聯技術,將多個 GPU / NPU 整合為統一計算單元的新型架構,解決 AI 大模型訓練中的算力協同與通信效率問題。
昇騰 384 超節點(Atlas 900 A3 SuperPoD)是華為推出的業界最大規模超節點方案,憑借創新的“全對等架構”,實現高速互聯總線的關鍵突破 —— 把總線從服務器內部擴展到整機柜、甚至跨機柜,最終將 CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,形成一臺“超級計算機”,實現更大的算力密度和互聯帶寬。
基于商湯大裝置 SenseCore 與昇騰 384 超節點的特點,雙方團隊聯合攻關,在調度優化、系統穩定性以及故障恢復等方面提出多項行業創新:
調度優化:在調度能力上,除了支持 POD 內單機和多機調度、跨 POD 多機調度、親和性調度等基礎能力,SenseCore 平臺配合模型并行策略實現了邏輯超節點自動劃分,使 EP / TP 等大通信策略可以充分利用靈衢網絡,提升模型訓練效率。
跨 POD 訓練穩定性:另外 SenseCore 團隊提交了多個 MR 修復多 POD 場景下 master / work 任務 rank 亂序問題,從根本上解決了跨 POD 訓練任務概率性失敗的問題。
多維度故障檢測與恢復:在故障檢測能力上覆蓋了從服務器硬件、高速互聯總線、RoCE 網絡到任務、進程軟硬件多維度檢測,結合檢測能力實現 Job / Pod / 進程多級恢復機制,全面提升昇騰 384 超節點在訓練場景下的可靠性與容錯性。
從官方新聞稿獲悉,未來,雙方還將探索更多應用場景,包括大模型推理加速、智能體應用部署、面向垂直行業的大模型訓練與推理優化等,進一步加速基于 SenseCore 的昇騰 384 超節點在各行各業的應用落地。
本文鏈接:http://www.rrqrq.com/showinfo-45-27422-0.html商湯大裝置與華為昇騰 384 超節點全面適配,多項創新提升訓練效率
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com