国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

英偉達含量為零:華為密集模型盤古 Ultra 性能比肩 DeepSeek-R1,純昇騰集群訓練

來源: 責編: 時間:2025-04-17 06:43:36 273觀看
導讀 密集模型的推理能力也能和 DeepSeek-R1 掰手腕了?華為利用純昇騰集群訓練出的盤古 Ultra,在數學競賽、編程等推理任務當中,和 R1 打得有來有回。關鍵是模型參數量只有 135B,整個訓練過程零英偉達含量,而且沒有出現

密集模型的推理能力也能和 DeepSeek-R1 掰手腕了?2FZ28資訊網——每日最新資訊28at.com

華為利用純昇騰集群訓練出的盤古 Ultra,在數學競賽、編程等推理任務當中,和 R1 打得有來有回。2FZ28資訊網——每日最新資訊28at.com

關鍵是模型參數量只有 135B,整個訓練過程零英偉達含量,而且沒有出現損失尖峰。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

通過改進的模型架構和系統優化策略,盤古 Ultra 擁有優異的性能表現和 52% 以上的算力利用率。2FZ28資訊網——每日最新資訊28at.com

并且有網友表示,訓練過程中沒有出現損失尖峰這一特征,似乎此前從未實現。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

135B 密集模型比肩 DeepSeek-R1

作為一個參數量 135B 密集模型,盤古 Ultra 達到了同尺度密集模型的最優表現,甚至可以與 DeepSeek-R1 等參數量更大的 MoE 模型競爭。2FZ28資訊網——每日最新資訊28at.com

在預訓練階段模型的評測中,盤古 Ultra 在絕大部分英文基準任務和全部中文任務上取得了最佳性能,優于 Llama 405B、DeepSeek-V3 等 baseline 模型。2FZ28資訊網——每日最新資訊28at.com

尤其在 MMLU、TriviaQA、GSM8K 等具有挑戰性的數據集上,盤古 Ultra 展現出了卓越的語言理解和推理能力。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

經過指令調優后,盤古 Ultra 的性能進一步提升,尤其在 AIME 2024、MATH-500 等數學推理任務和 LiveCodeBench 等編程競賽題上達到了 SOTA 水平。2FZ28資訊網——每日最新資訊28at.com

綜合來看,盤古 Ultra 超越了包括 GPT-4o、Mistral-Large 2 等強大模型,與 DeepSeek-R1 等 MoE 模型競爭激烈。2FZ28資訊網——每日最新資訊28at.com

同時,盤古 Ultra 在 Arena Hard、MMLU-pro 等涵蓋通用語言理解和推理的評測中也表現優異。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

那么,為了實現這樣的效果,盤古 Ultra 采用了哪些關鍵技術呢?2FZ28資訊網——每日最新資訊28at.com

“三明治”層歸一化架構

如前文所述,盤古 Ultra 是一款 135B 參數量的密集模型,使用了 94 層的網絡結構。2FZ28資訊網——每日最新資訊28at.com

盤古 Ultra 采用了分組查詢注意力(GQA)機制,包含 96 個查詢頭(query head)和 8 個鍵值頭(key-value head)。2FZ28資訊網——每日最新資訊28at.com

為了解決訓練超深網絡面臨的不穩定性和收斂困難等問題,盤古 Ultra 在模型架構上做出了兩個關鍵改進 —— 深度縮放的 Sandwich-Norm 層歸一化和 TinyInit 參數初始化策略。2FZ28資訊網——每日最新資訊28at.com

傳統的 Transformer 通常使用 Pre-LN 層歸一化,但在深度模型中,Pre-LN 容易導致每個子層輸出尺度的波動,引發訓練不穩定。2FZ28資訊網——每日最新資訊28at.com

盤古 Ultra 使用的 Sandwich-Norm 層歸一化,則是在殘差連接前對每個子層的輸出做歸一化,并根據網絡深度對初始化值進行縮放,從而有效消除了訓練過程中的 loss 尖峰,使訓練過程更加平穩。2FZ28資訊網——每日最新資訊28at.com

用更容易理解的話說,傳統方法僅在每個子層的輸入進行歸一化,但這種方法針對輸出也進行了歸一化,形成了 Pre-Norm + 子層 + Post-Norm 的“三明治”結構。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

但是,僅僅使用 Sandwich-Norm 還不足以完全消除深度模型訓練中的不穩定性 —— 隨著網絡層數的增加,每一層的輸出尺度仍然可能出現累積性的漂移。2FZ28資訊網——每日最新資訊28at.com

為此,盤古 Ultra 在 Sandwich-Norm 的基礎上,進一步引入了深度縮放機制,對 Post-Norm 中的放縮參數 γ 進行了深度相關的初始化。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

至于整個模型的初始化,傳統的初始化通常采用的 Xavier 初始化方法僅考慮模型寬度,而盤古 Ultra 采用的 TinyInit 同時依據模型深度和寬度來縮放初始化權重的標準差。2FZ28資訊網——每日最新資訊28at.com

這種初始化方式有助于在前向傳播和反向傳播過程中,維持各層梯度的方差在一個合理的范圍內,避免了梯度消失或爆炸問題,使得訓練過程更加穩定,同時也加速了收斂。2FZ28資訊網——每日最新資訊28at.com

實驗表明,TinyInit 在深度模型訓練中取得了更好的收斂速度和下游任務性能;同時針對 embedding 層,保持權重的標準差接近 1 也能提升訓練穩定性。2FZ28資訊網——每日最新資訊28at.com

另外,盤古團隊也針對 Tokenizer 進行了優化,通過在通用中英文、代碼、數學等不同領域分別進行詞頻統計,再合并去重,最終得到了一個兼顧領域覆蓋和編碼效率的 153376 個 token 的平衡詞表。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

8192 張昇騰 NPU 訓練集群

盤古 Ultra 的整個訓練流程主要分為三個階段 —— 預訓練、長上下文擴展和指令調優。2FZ28資訊網——每日最新資訊28at.com

其中預訓練又可以分為三個子階段:2FZ28資訊網——每日最新資訊28at.com

通用階段:側重建立語言理解和知識儲備,使用了大量中英文通用語料,覆蓋網頁、書籍、百科等多個來源;2FZ28資訊網——每日最新資訊28at.com

推理階段:引入更多高質量的數學和代碼數據,以增強模型的推理能力。同時還使用 instruction 數據來幫助模型學習執行任務;2FZ28資訊網——每日最新資訊28at.com

退火階段:幫助模型鞏固知識和推理能力,并強化指令遵循能力。大量使用問答對和人類反饋數據。2FZ28資訊網——每日最新資訊28at.com

研究者們采用了基于規則和模型的數據清洗方法,并設計了 curriculum learning 策略,讓模型循序漸進地學習不同難度的樣本。2FZ28資訊網——每日最新資訊28at.com

預訓練中使用了 AdamW 優化器,并動態調整超參數。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

預訓練后,模型在最長 128K 的長上下文數據上進一步訓練,通過擴大 RoPE 的基頻來實現長序列建模,以增強處理長文檔的能力。2FZ28資訊網——每日最新資訊28at.com

最后的指令調優階則段使用監督微調(SFT)和強化學習(RL)來使模型更好地適應下游任務,學會執行指令并與人類偏好對齊。2FZ28資訊網——每日最新資訊28at.com

訓練設施方面,盤古 Ultra 使用了一個由 8192 個昇騰 AI 處理器組成的大規模計算集群。2FZ28資訊網——每日最新資訊28at.com

集群中每個節點包含 8 個 NPU,通過華為高速緩存一致性互聯 HCCS 以全互聯的拓撲結構連接,每個 NPU 配備 64GB 內存,節點間則通過 200Gbps 的 RoCE(RDMA over Converged Ethernet)網絡互聯。2FZ28資訊網——每日最新資訊28at.com

為了實現盤古 Ultra 的高效訓練,研究團隊還采用了一套系統的并行策略和優化技術。2FZ28資訊網——每日最新資訊28at.com

在并行策略的選擇上,盤古 Ultra 綜合考慮了模型的規模、數據的特性以及硬件的拓撲,最終采用了數據并行、張量并行、序列并行和流水線并行等多種并行方式的組合:2FZ28資訊網——每日最新資訊28at.com

128 路數據并行,將訓練數據分片到不同設備,保證了數據吞吐;2FZ28資訊網——每日最新資訊28at.com

8 路張量并行,利用設備內部高帶寬切分層內張量,實現高效通信;2FZ28資訊網——每日最新資訊28at.com

序列并行用于處理超長序列以降低顯存壓力;2FZ28資訊網——每日最新資訊28at.com

8 段流水線并行,將不同層分布到不同設備,形成高效的計算流水線。2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

在并行策略的基礎上,盤古 Ultra 還從多個角度對訓練系統進行了深度優化。2FZ28資訊網——每日最新資訊28at.com

一方面,通過使用 ZeRO(Zero Redundancy Optimizer)分布式優化器,將模型狀態分片到不同設備,大幅降低了單個設備的內存占用,在提高數據并行度的同時,確保了每個設備的內存負擔在可接受范圍內。2FZ28資訊網——每日最新資訊28at.com

另一方面,研究者們通過各種通信和計算優化技術,最小化了通信開銷,提升了計算效率:2FZ28資訊網——每日最新資訊28at.com

通過算子融合(Kernel Fusion)將多個小算子合并,減少了內存訪問和 kernel 啟動;2FZ28資訊網——每日最新資訊28at.com

通過通信計算重疊(Communication-Computation Overlapping)實現通信和計算的深度交織,隱藏通信延遲;2FZ28資訊網——每日最新資訊28at.com

MC^2(Merged Computation & Communication)和 BOA(Batch Optimization Accelerator)分別對張量并行和規范化層的通信進行了專門優化……2FZ28資訊網——每日最新資訊28at.com

2FZ28資訊網——每日最新資訊28at.com

在算法、工程、數據各個層面的精細優化下,盤古 Ultra 實現了 52% 以上的算力利用率。2FZ28資訊網——每日最新資訊28at.com

技術報告:2FZ28資訊網——每日最新資訊28at.com

https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf2FZ28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西,原標題《英偉達含量為零!華為密集模型性能比肩 DeepSeek-R1,純昇騰集群訓練》2FZ28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-12311-0.html英偉達含量為零:華為密集模型盤古 Ultra 性能比肩 DeepSeek-R1,純昇騰集群訓練

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 我國首批人形機器人系列國家標準正式立項,涉環境感知、運動控制等技術要求

下一篇: 迅雷功能插件升級:一鍵完成大模型批量下載

標簽:
  • 熱門焦點
  • 數字人的新革命,BAT的“沖高”戰場

    來源:劉曠ChatGPT橫空出世,讓人們看到了數字人的另一種可能,將ChatGPT與虛擬數字人融合,研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份,嶺南股份
  • 在數字世界再造世界杯,元宇宙體育正變得越來越豐滿

    撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆,卻絕對是看點十足的一屆:后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
  • 韓國主權基金增加對硅谷初創公司投資 押注元宇宙和人工智能

    韓國投資公司(KIC)CEO Seoungho Jin預計,該公司在舊金山的辦事處今年將擴招人手,探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
  • 摩根大通:元宇宙市場預計每年收入超1萬億美元

    今日《元宇宙新鮮事》有:香港首屆元宇宙藝博會將于5月舉辦;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虛擬現實平臺Horizon Worlds月活躍用戶在三個
  • 元宇宙“概念股”集體崩塌,背后究竟發生了什么?

    近期,Roblox和Meta公布了第四季度的財務報告,在財報發布一日后,股價大跌。作為市值一度超過1萬億美元的世界第六大公司Meta,股價大跌4%,市值降至5650億美元,甚至跌出
  • 元宇宙是數字共識生態的集成邏輯表達

    作者: 李鳴元宇宙是數字共識生態的集成邏輯表達,是以區塊鏈技術為核心的可信數字化價值交互網絡,是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
  • NFT 技術將傳世之作帶入博物館

    意大利四大博物館已與一個項目合作,該項目將展示和銷售達芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復制品。該計劃采用了 科技公司Cincello的國際專
  • 元宇宙風歸何處?

    元宇宙持續大火,在過去一段時間內,其屢次登上熱點,吸引了一波又一波投資者。近期,在“2022中國·金魚嘴元宇宙生態賦能大會”上,南京建鄴區金魚嘴基金街區宣布計劃
  • 淺聊DAO圖景和未來

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治組織,是基于區塊鏈技術,由社區通過透明的決策過程運行和管理的組織形態。DAO使得社區成為
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
国产乱子伦一区二区三区国色天香| 精品一区二区在线观看| 国产一区在线观看麻豆| 欧美专区在线| 综合色天天鬼久久鬼色| 一区二区在线观看av| 国产精一区二区三区| 成+人+亚洲+综合天堂| 亚洲一区二区三区在线| 91丨九色丨黑人外教| 日韩av在线发布| 一区视频在线看| 欧美一级国产精品| 国产综合色在线| 最新国产拍偷乱拍精品 | 久久综合久久综合久久综合| 中文字幕综合网| 国产成人在线网站| 99精品国产一区二区青青牛奶| 91精品国产欧美一区二区成人| 日韩免费观看高清完整版在线观看| 在线一区二区三区做爰视频网站| 在线亚洲激情| 狠狠入ady亚洲精品| 91亚洲资源网| 久久色视频免费观看| 亚洲欧美日韩国产一区二区三区| 国产精品一区二区男女羞羞无遮挡| 国内精品嫩模av私拍在线观看 | 99精品国产在热久久下载| 欧美一区二区三区四区在线观看| 日韩高清不卡一区二区| 亚洲国产精品久久久久婷婷老年| 精品国产免费一区二区三区香蕉| 九九精品一区二区| 裸体一区二区| 午夜成人免费视频| 99国产精品视频免费观看一公开 | 成人ar影院免费观看视频| 日韩一级成人av| 亚洲在线视频一区| 97se亚洲国产综合在线| 91麻豆精品国产91久久久久久 | 色综合夜色一区| 国产精品亚洲成人| 99久久夜色精品国产网站| 91久久奴性调教| 国产一区视频网站| 91久久一区二区| 丝袜美腿高跟呻吟高潮一区| 精品一区二区三区在线播放| 色婷婷综合视频在线观看| 午夜精品久久久久久不卡8050| 狠狠色综合网站久久久久久久| 欧美高清在线一区二区| 国产精品草草| 日韩在线一区二区| 日韩欧美国产综合一区| 亚洲精品乱码久久久久久蜜桃麻豆| 一区二区在线观看免费视频播放 | 中文字幕视频一区二区三区久| 久久久福利视频| 99国产精品国产精品久久| 欧美系列日韩一区| 精品午夜一区二区三区在线观看| 日韩欧美你懂的| 激情欧美日韩| 成人午夜在线免费| 国产精品福利在线播放| 欧美主播一区二区三区美女 久久精品人| 美女视频黄 久久| 国产精品久久三| 欧美日本精品一区二区三区| 亚洲欧洲一二三| 亚洲欧美日韩在线播放| 欧美性受xxxx黑人xyx| 欧美日韩天天操| 激情另类小说区图片区视频区| 中文字幕国产一区| 91精品在线一区二区| 一区二区三区你懂的| 国产剧情一区二区三区| 亚洲欧美另类小说| 国产欧美日韩在线| 九一久久久久久| 精品日产卡一卡二卡麻豆| 欧美精品日韩| 欧美一区二区三区久久精品茉莉花| 久久久久久久久久久久久久久99 | 亚洲国产专区校园欧美| 欧美在线一二三区| 午夜精品剧场| 中文字幕第一区| 久久久久久久综合日本| 久久一留热品黄| 国产欧美一区二区三区网站| 国产视频一区二区三区在线观看| 日韩欧美资源站| 久久综合av免费| 欧美国产三区| 成人性视频免费网站| 免费观看91视频大全| 免费国产亚洲视频| 免费人成在线不卡| 亚洲国产综合人成综合网站| 中文字幕欧美日本乱码一线二线| 欧美亚洲日本国产| 99精品欧美| 91免费看视频| 精品不卡一区| 尤物精品在线| 激情一区二区三区| 在线天堂一区av电影| 一本久道久久久| 欧美久久99| 一区在线免费观看| 不卡一区中文字幕| 9i在线看片成人免费| 亚洲男同性视频| 最新高清无码专区| 亚洲一级不卡视频| 国产成人精品免费| 麻豆成人91精品二区三区| 亚洲制服欧美中文字幕中文字幕| 综合久久久久久| 一区二区三区蜜桃| 自拍视频在线观看一区二区| 亚洲日本欧美天堂| 天天操天天干天天综合网| 精品一区二区精品| 国产suv精品一区二区三区| 成人美女视频在线看| 欧美日韩精品| www.日韩精品| 色综合av在线| 91精品免费观看| 日韩午夜激情av| 亚洲精品欧美在线| 国产69精品一区二区亚洲孕妇| 极品裸体白嫩激情啪啪国产精品| 一本到一区二区三区| 久久免费美女视频| 亚洲一区二区偷拍精品| 不卡的av电影| 欧美阿v一级看视频| 国产精品欧美日韩一区| 欧美日精品一区视频| 亚洲欧美另类在线| 97精品久久久午夜一区二区三区 | 国产亚洲欧美另类一区二区三区| 久久久成人网| 中文字幕一区二区在线播放| 精品午夜久久福利影院| 久99久精品视频免费观看| 国产精品一区二区在线观看不卡 | 亚洲美女视频在线免费观看| 精品视频在线免费看| 久久综合中文字幕| 国产精品蜜臀av| 五月激情六月综合| 波多野洁衣一区| 久久资源av| 久久久国际精品| 国产盗摄一区二区| 久久久www| 亚洲欧洲av在线| 日韩在线一区二区| 狠狠色伊人亚洲综合网站色| 91国内精品野花午夜精品| 亚洲人快播电影网| 91天堂素人约啪| 欧美一区2区视频在线观看| 国产欧美日韩另类视频免费观看 | 久久精品亚洲乱码伦伦中文| 九色综合狠狠综合久久| 色哟哟欧美精品| 亚洲午夜免费电影| 午夜精品剧场| 中文字幕不卡在线观看| 韩国亚洲精品| 男女精品视频| 日本一区二区在线不卡| 不卡一区二区在线| 欧美三级电影网| 久久国产精品99久久人人澡| 免费久久99精品国产自在现线| 2021国产精品久久精品| 成人高清视频免费观看| 欧美久久久久中文字幕| 美女爽到高潮91| 色八戒一区二区三区| 日本午夜精品视频在线观看| 免费看亚洲片| 亚洲一区在线视频| 色哟哟欧美精品| 免费成人在线视频观看| 久久久久久久久久码影片| 综合av第一页| 欧美专区18| 久久精品国产在热久久|