9 月 5 日消息,在 9 月 5 日至 8 日的 2025 重慶世界智能產業博覽會上,中科曙光發布了國內首個基于 AI 計算開放架構設計的產品 —— 曙光 AI 超集群系統。
該系統以 GPU 為核心,實現了“算、存、網、電、冷、管、軟”一體化緊耦合設計,可為萬億參數大模型訓練推理、行業大模型微調、多模態大模型開發、AI4S 等場景提供算力底座。
相比封閉系統,曙光 AI 超集群系統除了通過緊耦合設計像一臺計算機般高效工作外,還支持多品牌 AI 加速卡以及兼容 CUDA 等主流軟件生態,為用戶提供更多開放性選擇,并降低硬件成本和軟件開發適配成本,保護前期投資。
附曙光 AI 超集群系統技術特點:
單機柜可搭載 96 張 GPU 卡、算力規模達百 P 級、訪存總帶寬超 180TB/s;支持多精度、混合精度運算;支持百萬卡超大集群擴展。
千卡集群大模型訓練推理性能達到業界主流水平 2.3 倍、開發效率提升 4 倍、人天投入減少 70%;存算傳協同,提升 GPU 計算效率 55%;先進冷板液冷,394 項節能設計 PUE 低于 1.12。
121 項設備和鏈路 RAS 可靠性設計;平均無故障時間(MTBF)提高 2.1 倍;平均故障修復時間(MTTR)降低 47%;超 30 天長穩運行集群可靠性測試;實現百萬級部件故障自動分析與秒級隔離。
基于 AI 計算開放架構設計;硬件適配多品牌 AI 加速卡;軟件兼容主流 AI 計算生態;多項技術能力開放與共享。
本文鏈接:http://www.rrqrq.com/showinfo-45-27424-0.html支持百萬卡擴展,中科曙光發布國內首個開放架構 AI 超集群系統
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com