DeepSeek V3.1 發(fā)布后,一則官方留言讓整個(gè) AI 圈都轟動(dòng)了:

新的架構(gòu)、下一代國(guó)產(chǎn)芯片,總共短短不到 20 個(gè)字,卻蘊(yùn)含了巨大信息量。
國(guó)產(chǎn)芯片企業(yè)股價(jià)也跟風(fēng)上漲,比如寒武紀(jì)今日早盤(pán)盤(pán)中大漲近 14%,總市值躍居科創(chuàng)板頭名。
半導(dǎo)體 ETF,同樣也是在半天的時(shí)間里大漲 5.89%。(不知道作為放出消息的 DeepSeek 背后公司幻方量化,有沒(méi)有趁機(jī)炒一波【手動(dòng)狗頭】)

這個(gè) UE8M0 FP8 到底是個(gè)啥?下一代國(guó)產(chǎn)芯片,又是指什么?
接踵而來(lái)的疑問(wèn),擠爆了人們的大腦。

在知乎上,也有不少大神開(kāi)始邊科普邊分析自己對(duì)這件事的理解。

咱抱著學(xué)習(xí)心態(tài),不妨就從 UE8M0 FP8 的概念開(kāi)始說(shuō)起。
什么是 UE8M0 FP8?“UE8M0 FP8”這個(gè)概念,可以拆分成前后兩個(gè)部分來(lái)解釋,前面的 UE8M0,是 MXFP8 路徑里的“縮放因子”。
MXFP8 是 Open Compute Project 在 2023 年發(fā)布的《Microscaling (MX) Formats Specification v1.0》里定義的 8 bit 微縮塊格式。
Open Compute Project 是 2011 年由 Facebook(現(xiàn) Meta)聯(lián)合英特爾、Rackspace 等發(fā)起的開(kāi)源硬件協(xié)作計(jì)劃,目的是通過(guò)共享數(shù)據(jù)中心及服務(wù)器設(shè)計(jì)推動(dòng)行業(yè)效率提升。
其成員陣容相當(dāng)強(qiáng)大,國(guó)外還有微軟、谷歌、亞馬遜、AMD、英偉達(dá)等,而國(guó)內(nèi)的阿里、騰訊、百度等也參與其中。
說(shuō)回 MXFP8,它以 FP8 為基礎(chǔ)建立,F(xiàn)P8 是把常規(guī)浮點(diǎn)格式壓縮到 8 bit 的一種編碼方式。
MXFP8 的核心思想是先把張量切成固定長(zhǎng)度的“塊”,然后為每個(gè)塊單獨(dú)指定一個(gè) 2 的整數(shù)次冪作為“縮放因子”,把塊內(nèi)所有數(shù)一起除以這個(gè)系數(shù)后再寫(xiě)成 FP8。
這種塊級(jí)(而不是全張量級(jí))的縮放,讓 MXFP8 既保留了 8 bit 位寬,又把可用動(dòng)態(tài)范圍擴(kuò)展了幾十倍。

而這里的“縮放因子”也是包含 8 個(gè) bit,其中包含符號(hào)位、指數(shù)位和尾數(shù)位,開(kāi)發(fā)者可以自行將這 8 個(gè) bit 分配給這三種不同的位。
其中符號(hào)位只區(qū)分有無(wú),若有則占一個(gè) bit,無(wú)則不占用,而 UE8M0 中的 U 表示的就是無(wú)符號(hào)(有符號(hào)可表示為 S 或省略不寫(xiě))。
E 和 M 則分別表示指數(shù)位和尾數(shù)位分配到的 bit 數(shù),E8M0 指的就是 8 個(gè) bit 全都分配給了指數(shù)位。
其他常用的格式還有 E4M3、E5M2(縮放引子外的本體部分也常采用這兩種)等,它們均包含符號(hào)位,其余 7 個(gè) bit 在指數(shù)和尾數(shù)位之間分配。

DeepSeek 之前開(kāi)源的 5.6k 星標(biāo)項(xiàng)目 FP8 GEMM 內(nèi)核 DeepGEMM 就已經(jīng)支持 UE8M0,不過(guò)這個(gè)項(xiàng)目主要是適配英偉達(dá)芯片和 CUDA 生態(tài)。

那么,采用這種全指數(shù)表示縮放因子的方式,有什么好處呢?
首先,由于 UE8M0 不含尾數(shù)與符號(hào)位,處理器在根據(jù)縮放因子對(duì)數(shù)據(jù)進(jìn)行復(fù)原時(shí),只需要乘以對(duì)應(yīng)的 2 的冪,也就是移動(dòng)一下指數(shù)位,而不需要浮點(diǎn)乘法、規(guī)格化或舍入邏輯,縮短了時(shí)鐘關(guān)鍵路徑。
并且 UE8M0 的動(dòng)態(tài)范圍覆蓋 2^(?127) 到 2^128,其指數(shù)表可輕松容納這一跨度,為后續(xù)塊縮放提供充足空間。
另外 UE8M0 還能解決單尺度 FP8 無(wú)法同時(shí)顧及大 / 小值,導(dǎo)致溢出或被壓成 0 的問(wèn)題,將 UE8M0 作為分塊的尺度后,錯(cuò)誤率曲線從整張曲線下降到一條遠(yuǎn)低水平的橫線,在保持 8 bit 張量精度的同時(shí)大幅減少信息損失。

UE8M0 FP8 的好處我們了解了,現(xiàn)在可以解釋為什么它更適配“下一代國(guó)產(chǎn)芯片”了。
大部分已量產(chǎn)的國(guó)產(chǎn) AI 加速器仍沿用 FP16 / BF16 + INT8 的計(jì)算通路,并未集成 E4M3 / E5M2 這類完整的 FP8 乘加單元。
不過(guò),摩爾線程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 H2 首發(fā)的新款國(guó)產(chǎn)芯片已經(jīng)在宣傳資料里列出“原生 FP8”或“Block FP8”支持,并與 DeepSeek、華為等 15 家廠商聯(lián)合驗(yàn)證 UE8M0 格式。
雖然下一代國(guó)產(chǎn)芯片雖然已經(jīng)在為 FP8 做出準(zhǔn)備,但 HBM / LPPDDR 帶寬仍然與頂尖芯片存在較大差距。
而 UE8M0 讓一組 32 個(gè) FP8 數(shù)據(jù)只追加 8bit 縮放引子,相比傳統(tǒng)的 4B(32bit) FP32 縮放直接節(jié)省 75% 的流量,這種空間節(jié)約措施被視作下一代架構(gòu)的重要優(yōu)化方向。
DeepSeek 為哪個(gè)國(guó)產(chǎn)芯片做了優(yōu)化?在搞清楚啥是 UE8M0 FP8 之后,回過(guò)神來(lái)的網(wǎng)友們又開(kāi)始紛紛猜測(cè):
DeepSeek 這是在說(shuō)哪一家的國(guó)產(chǎn)芯片呢?
在官方有意賣(mài)關(guān)子的情況下,人們只好首先把目光放在了首批通過(guò)“DeepSeek 大模型適配”的 8 家廠商。

這當(dāng)中大家看好的“頭號(hào)種子選手”當(dāng)屬寒武紀(jì),市場(chǎng)反應(yīng)相當(dāng)直觀 ——
截至今日 10:25,寒武紀(jì)盤(pán)中大漲近 14%,總市值超 4940 億元,超過(guò)中芯國(guó)際躍居科創(chuàng)板頭名(實(shí)際以最新為準(zhǔn))。
理由也很簡(jiǎn)單,該公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 計(jì)算,在架構(gòu)設(shè)計(jì)和低精度計(jì)算優(yōu)化上一直相對(duì)比較領(lǐng)先。
而基于類似理由,海光、沐曦,中昊芯英甚至包括名單之外的摩爾線程等也都被網(wǎng)友們挨個(gè)點(diǎn)名:
海光:其深算三號(hào) DCU 支持 FP8 計(jì)算,存在進(jìn)一步優(yōu)化的空間;
沐曦:今年 7 月發(fā)布的曦云 C600,也支持 FP8 精度計(jì)算;
中昊芯英:其“剎那”TPU AI 芯片支持 FP8 精度;
摩爾線程:作為國(guó)內(nèi)極少數(shù)原生支持 FP8 的 GPU 廠商,旗艦產(chǎn)品 MTT S5000 支持 FP8 精度計(jì)算。
與此同時(shí),一些很有可能“即將上車 FP8”的廠商也出現(xiàn)在了一眾盤(pán)點(diǎn)名單中。
例如華為昇騰,雖然昇騰 910B 和 910C 暫不支持原生 FP8,但官方路線圖已經(jīng)寫(xiě)明“2025Q4 原生 FP8”,所以眾人預(yù)計(jì)或?qū)⒃?2026 年推出的 910D(可能的命名)很有可能是所謂的“下一代芯片”。
除了以上這些,還有一大串芯片廠商的名字出現(xiàn)在了討論當(dāng)中,堪稱盛況空前。
雖然猜來(lái)猜去沒(méi)有最終定論,但不妨礙市場(chǎng)給予熱烈回應(yīng)。根據(jù)最新消息,今日國(guó)產(chǎn)芯片概念集體高開(kāi),科創(chuàng) 50 大漲 3% 創(chuàng)近三年半新高,芯片產(chǎn)業(yè)鏈集體走強(qiáng)。

所以,大家為什么集體狂歡?這些國(guó)產(chǎn)芯片一旦支持 UE8M0 FP8 究竟意味著什么?
綜合當(dāng)前國(guó)內(nèi)外各方說(shuō)法來(lái)看,一切都可以用一句話來(lái)概括:
這代表了國(guó)產(chǎn) AI 正走向軟硬協(xié)同階段,能夠?qū)嵸|(zhì)性減少對(duì)英偉達(dá)、AMD 等國(guó)外算力的依賴。
這里頭的邏輯也很簡(jiǎn)單清晰,正是由于 UE8M0 FP8 精度格式所具備的上述優(yōu)勢(shì)(更小的帶寬、更低的功耗、更高的吞吐),這意味著同樣的硬件今后能跑更大的模型,所以國(guó)產(chǎn)芯片的“性價(jià)比”被大幅拉高了。
換句話說(shuō),這些國(guó)產(chǎn)芯片廠商將在競(jìng)爭(zhēng)中更具優(yōu)勢(shì),因此也就屬于利好了。
從另一方面來(lái)看,DeepSeek 通過(guò)改動(dòng)精度格式,相當(dāng)于主動(dòng)貼合國(guó)產(chǎn)芯片的最佳性能點(diǎn),這種軟硬協(xié)同的模式無(wú)疑是把國(guó)產(chǎn)芯片們拉進(jìn)了一個(gè)統(tǒng)一的生態(tài)坐標(biāo)系。
這就像當(dāng)年的“Wintel 聯(lián)盟”一樣 —— 微軟和英特爾通過(guò)深度技術(shù)綁定,筑起了個(gè)人計(jì)算機(jī)領(lǐng)域的生態(tài)護(hù)城河,只不過(guò)如今換成了 DeepSeek 和國(guó)產(chǎn)芯片廠商們。
One More Thing事實(shí)上,官方在正文部分提到 UE8M0 FP8 的只有一句話:
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數(shù)精度。
而且位置相當(dāng)“隱蔽”,藏在了一大段洋洋灑灑的功能更新介紹之后。

要不是官方特意在評(píng)論區(qū)補(bǔ)了一句,估計(jì)大家還沒(méi)啥感覺(jué)。
所以你說(shuō)它這個(gè)動(dòng)作吧,不知道算無(wú)意還是刻意為之,總之是相當(dāng)微妙了 (手動(dòng)狗頭)。
參考鏈接:
[1]https://www.zhihu.com/question/1941891000319580108
[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069
[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html
[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:克雷西、一水,原標(biāo)題《DeepSeek 一句話讓國(guó)產(chǎn)芯片集體暴漲!背后的 UE8M0 FP8 到底是個(gè)啥》
本文鏈接:http://www.rrqrq.com/showinfo-45-27005-0.htmlDeepSeek 一句話讓國(guó)產(chǎn)芯片集體暴漲,背后的 UE8M0 FP8 到底是什么
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 騰訊 CodeBuddy IDE 代碼助手國(guó)內(nèi)版公測(cè),DeepSeek-V3.1 最新模型免費(fèi)用
下一篇: 釘釘聯(lián)合通義推出 Fun-ASR 語(yǔ)音識(shí)別大模型,能聽(tīng)懂家裝、畜牧等十大行業(yè)黑話