中國人工智能領(lǐng)域的明星企業(yè)DeepSeek近期宣布了其旗艦大語言模型的重大更新,新版本針對即將面世的新一代國產(chǎn)芯片進(jìn)行了專門優(yōu)化。
據(jù)DeepSeek介紹,此次升級采用了名為UE8M0的新型數(shù)據(jù)類型來訓(xùn)練V3.1模型,這是對現(xiàn)有FP8格式的一種擴(kuò)展,已被英偉達(dá)等業(yè)界巨頭所支持。DeepSeek在微信平臺上澄清,這一變化是為了更好地適配即將推出的國產(chǎn)芯片,指出“UE8M0 FP8專為新一代國產(chǎn)芯片設(shè)計(jì)”。
使用較低精度的數(shù)據(jù)類型帶來了諸多優(yōu)勢,包括減少內(nèi)存占用和提升推理及訓(xùn)練速度。值得注意的是,DeepSeek之前已經(jīng)在使用FP8格式中的E4M3類型。因此,轉(zhuǎn)向UE8M0更多是為了確保與新一代芯片的兼容性,而非單純追求效率提升。
雖然DeepSeek未透露新模型所適配芯片的具體制造商,但有報(bào)道稱這家AI初創(chuàng)公司與華為有著緊密合作,利用華為的昇騰系列神經(jīng)處理單元(NPU)進(jìn)行模型訓(xùn)練和推理。華為的昇騰910C為其CloudMatrix機(jī)架系統(tǒng)提供動(dòng)力,但目前不支持FP8格式,這或許意味著華為正在研發(fā)性能更強(qiáng)大的加速器。
有消息指出,DeepSeek曾嘗試在華為昇騰加速器上訓(xùn)練其下一代R2模型,但因遇到困難而改用英偉達(dá)的H20加速器。不過,DeepSeek目前仍在評估華為加速器的推理性能。
關(guān)于R2模型,目前尚不清楚它是否就是此次發(fā)布的V3.1版本,或是另一個(gè)即將推出的模型。
值得注意的是,DeepSeek V3.1并非從零開始的全新模型,而是基于早期V3版本的檢查點(diǎn)進(jìn)一步訓(xùn)練而成。盡管如此,這一新版本在功能上有顯著改進(jìn)。V3.1版本不再區(qū)分“思考型”和“非思考型”模型,而是將兩種范式整合到單一模型中,并通過聊天模板實(shí)現(xiàn)模式切換。因此,DeepSeek的聊天機(jī)器人界面也不再提及R1版本。
統(tǒng)一模型以支持推理和非推理輸出的概念并非DeepSeek首創(chuàng)。阿里巴巴今年早些時(shí)候也曾嘗試過類似做法,但因發(fā)現(xiàn)該功能降低了模型質(zhì)量而放棄。然而,在基準(zhǔn)測試中,DeepSeek的V3.1版本似乎成功避免了這一問題。與V3版本相比,V3.1的非思考模式在各項(xiàng)指標(biāo)上都有顯著提升。
在啟用思考功能后,V3.1版本的性能提升雖然相對溫和,但DeepSeek指出,該模型現(xiàn)在需要更少的思考Token就能給出答案,這將有助于降低模型服務(wù)的成本。
在上下文處理能力方面,DeepSeek將V3.1版本的上下文窗口(即短期記憶)從65,536個(gè)Token擴(kuò)展到131,072個(gè),盡管這一數(shù)字仍然落后于阿里巴巴的Qwen3等其他中國模型,后者能處理高達(dá)百萬級的Token上下文。
DeepSeek還聲稱在工具和函數(shù)調(diào)用能力方面取得了重大進(jìn)展,這對于需要實(shí)時(shí)檢索外部數(shù)據(jù)和調(diào)用工具的AI工作負(fù)載至關(guān)重要。例如,在針對自主瀏覽器使用任務(wù)的Browsecomp基準(zhǔn)測試中,DeepSeek V3.1版本獲得了30分的高分,而R1版本的5月版本僅得8.9分。
除了通過聊天機(jī)器人服務(wù)和API端點(diǎn)提供服務(wù)外,DeepSeek還在Hugging Face和ModeScope平臺上提供了基礎(chǔ)模型和指令調(diào)優(yōu)模型的權(quán)重下載,方便開發(fā)者進(jìn)一步定制和優(yōu)化。
關(guān)于DeepSeek V3.1版本的更多信息,以下是幾個(gè)常見問題及解答:
Q:DeepSeek V3.1有哪些新特點(diǎn)?
A:V3.1版本最大的特點(diǎn)是使用UE8M0數(shù)據(jù)類型進(jìn)行優(yōu)化,專為即將發(fā)布的國產(chǎn)芯片設(shè)計(jì)。同時(shí),它整合了“思考型”和“非思考型”模型功能,在單一模型中通過聊天模板實(shí)現(xiàn)模式切換,并將上下文窗口的Token數(shù)量大幅提升。
Q:為什么DeepSeek要切換到UE8M0數(shù)據(jù)類型?
A:DeepSeek切換到UE8M0主要是為了與即將推出的新一代國產(chǎn)芯片保持兼容。盡管公司之前已在使用FP8的E4M3類型,但UE8M0是專為新一代國產(chǎn)芯片設(shè)計(jì)的,預(yù)示著可能有更強(qiáng)大的國產(chǎn)加速器即將面世。
Q:DeepSeek V3.1版本的性能如何?
A:在基準(zhǔn)測試中,V3.1版本的非思考模式相比V3版本在各項(xiàng)指標(biāo)上都有顯著提升。在工具調(diào)用方面,V3.1版本在Browsecomp瀏覽器任務(wù)測試中得分高達(dá)30分,遠(yuǎn)超R1版本的8.9分。同時(shí),該模型現(xiàn)在需要更少的思考Token就能給出答案,有助于降低服務(wù)成本。
舉報(bào) 0收藏 0打賞 0評論 0分享 0 更多>同類資訊華為云架構(gòu)大調(diào)整:多部門整合,全力沖刺AI領(lǐng)域,目標(biāo)年內(nèi)盈利08-23
中國電信欒曉維詳解:云網(wǎng)智融戰(zhàn)略,驅(qū)動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型在主論壇上,中國電信集團(tuán)有限公司副總經(jīng)理欒曉維發(fā)表題為《云網(wǎng)智融,賦能百業(yè)》的主旨演講,分享了中國電信在基礎(chǔ)設(shè)施升級、智能云體系建設(shè)、AI普惠向善的實(shí)踐成果。 在此次大會(huì)上,中國電信發(fā)布了人工智能算力優(yōu)化AI…08-23
AI陪伴市場崛起,雷軍馬斯克加碼布局,長期記憶成關(guān)鍵挑戰(zhàn)這一熱潮背后,既有因人口結(jié)構(gòu)變化而產(chǎn)生的現(xiàn)實(shí)需求驅(qū)動(dòng),也有技術(shù)端快速迭代的助力——大模型價(jià)格戰(zhàn)與開源趨勢大幅降低了應(yīng)用門檻,使得AI陪伴產(chǎn)品從概念走向普及。 在市場層面,技術(shù)不成熟帶來的不確定性也導(dǎo)致一些廠商…08-23百度股價(jià)上揚(yáng)2.15%,市值達(dá)307.64億美元,2025財(cái)年中報(bào)即將披露8月22日,百度(BIDU)開盤上漲2.15%,截至21:34,報(bào)89.49美元/股,成交3476.58萬美元,總市值307.64億美元。百度核心主要提供在線營銷服務(wù)和非營銷增值服務(wù),以及來自新人工智能舉措的…08-23科創(chuàng)板AI基金8月22日凈值飆升7.79%,重倉股表現(xiàn)搶眼來源:新浪基金∞工作室 科創(chuàng)板AI成立于2025年1月6日,業(yè)績比較基準(zhǔn)為上證科創(chuàng)板人工智能指數(shù)收益率。基金經(jīng)理為譚躍峰。譚躍峰自2024年12月18日管理(或擬管理)該基金,任職期內(nèi)收益52.83%。 最…08-23博時(shí)科創(chuàng)板人工智能ETF最新凈值公布,單月漲幅達(dá)7.86%來源:新浪基金∞工作室博時(shí)科創(chuàng)板人工智能ETF成立于2024年12月31日,業(yè)績比較基準(zhǔn)為上證科創(chuàng)板人工智能指數(shù)收益率。李慶陽自2024年12月19日管理(或擬管理)該基金,任職期內(nèi)收益56.15%。 最新…08-23
佑駕創(chuàng)新2025中期業(yè)績:總收入增46%,智能座艙業(yè)務(wù)近翻倍08-23
華為Pura80 Pro+大跳水,一英寸主攝+雙衛(wèi)星通信,麒麟9020僅售6099元更值得一提的是LOFIC技術(shù)(低噪點(diǎn)高動(dòng)態(tài)采集),這是華為給影像系統(tǒng)上的一顆“補(bǔ)心丸”。它讓手機(jī)在逆光、夜景下的成像更接近專業(yè)相機(jī)的寬容度,這也是為什么不少攝影愛好者把Pura80 Pro+稱為“口袋里的單…08-23
智能工廠:制造業(yè)數(shù)字化轉(zhuǎn)型的引擎與未來展望它讓工廠具備了“思考”與“決策”的能力,能夠?qū)崟r(shí)感知生產(chǎn)狀態(tài)、精準(zhǔn)預(yù)測設(shè)備故障、智能調(diào)度生產(chǎn)資源,使生產(chǎn)效率、產(chǎn)品質(zhì)量、資源利用率等關(guān)鍵指標(biāo)得到顯著提升,為制造業(yè)在激烈的全球競爭中贏得了新的發(fā)展空間與優(yōu)勢。它…08-23
榮耀小折疊屏旗艦Magc V Flip2:8月28日開售,配置全面升級作為榮耀新一代小折疊屏,擁有多個(gè)亮點(diǎn),比如大師高定設(shè)計(jì)、2億像素?cái)z像頭、青海湖電池、滿級防水等,果然小折疊屏手機(jī),離不開影像的提升,尤其是人像拍攝方面,畢竟新機(jī)傾向于女生手機(jī)市場。折疊屏提升到6.82英寸,分…08-23
NVIDIA黃仁勛急赴臺積電,或推定制AI芯片B30A應(yīng)對中國市場變化此外繼續(xù)采用NVIDIA的AI芯片,將有效避免兼容問題,當(dāng)前全球大多數(shù)大模型都是基于NVIDIA的CUDA生態(tài),如此情況下,繼續(xù)采用NVIDIA的AI芯片,可以更好地兼容NVIDIA的CUDA生態(tài),這同樣有…08-23機(jī)器人概念股走強(qiáng),ETF易方達(dá)(159530)本周資金凈流入超7億值得注意的是,截至10:53,機(jī)器人ETF易方達(dá)(159530)成交額已超3億元、在同標(biāo)的產(chǎn)品中居首,實(shí)時(shí)凈申購超1億份。 資料顯示,國證機(jī)器人產(chǎn)業(yè)指數(shù)選樣范圍突出人形機(jī)器人本體和核心零部件,相關(guān)個(gè)股占比近…08-23Meta身陷AI數(shù)據(jù)侵權(quán)風(fēng)波,2396部影片遭非法使用,面臨3.59億索賠08-23百度蒸汽機(jī)2.0:低成本打造高質(zhì)科幻視頻,影視制作新革命08-23
華為發(fā)布2025高品質(zhì)醫(yī)院網(wǎng)絡(luò)建設(shè)指南V2.0:打造智慧醫(yī)療新生態(tài)《高品質(zhì)醫(yī)院網(wǎng)絡(luò)建設(shè)指南V2.0》圍繞智慧醫(yī)院網(wǎng)絡(luò)建設(shè),從發(fā)展趨勢、挑戰(zhàn)、解決方案等多方面展開,為醫(yī)院網(wǎng)絡(luò)建設(shè)提供全面指導(dǎo)。 數(shù)據(jù)中心網(wǎng)絡(luò)為解決傳統(tǒng)問題,構(gòu)建高可用、高性能、易運(yùn)維的數(shù)據(jù)中心,有內(nèi)部和多活數(shù)…08-22點(diǎn)擊查看更多 +全站最新
小米汽車崛起:以高性價(jià)比挑戰(zhàn)保時(shí)捷,智能電動(dòng)市場格局生變
小米之家昆明旗艦店開業(yè),王曉雁透露年底3000家門店將升級
2025上半年城區(qū)領(lǐng)航輔助駕駛市場概覽:華為領(lǐng)跑,智能化加速普及
嵐圖FREE+上市價(jià)曝光,21.69萬起售,高階輔助駕駛新選擇
AI泡沫警報(bào)!OpenAI奧特曼:狂熱背后,理性與矛盾并存
京東拼拼“團(tuán)店”新生態(tài):社區(qū)團(tuán)購賽道重啟,資源整合模式能否突圍?熱門內(nèi)容
DeepSeek V3.1大模型升級,適配國產(chǎn)新芯片,性能顯著提升
中國電信欒曉維詳解:云網(wǎng)智融戰(zhàn)略,驅(qū)動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型
AI陪伴市場崛起,雷軍馬斯克加碼布局,長期記憶成關(guān)鍵挑戰(zhàn)
佑駕創(chuàng)新2025中期業(yè)績:總收入增46%,智能座艙業(yè)務(wù)近翻倍
華為Pura80 Pro+大跳水,一英寸主攝+雙衛(wèi)星通信,麒麟9020僅售6099元
智能工廠:制造業(yè)數(shù)字化轉(zhuǎn)型的引擎與未來展望
本文鏈接:http://www.rrqrq.com/showinfo-45-26878-0.htmlDeepSeek V3.1大模型升級,適配國產(chǎn)新芯片,性能顯著提升
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 新華三未來網(wǎng)絡(luò)大會(huì)展全棧創(chuàng)新,智算變革引領(lǐng)行業(yè)新風(fēng)向
下一篇: 華為云架構(gòu)大調(diào)整:多部門整合,全力沖刺AI領(lǐng)域,目標(biāo)年內(nèi)盈利