當前位置：首頁 > 元宇宙 > AI

DeepSeek 下一代技術提前曝光，梁文鋒署名論文獲 ACL 2025 最佳論文獎

來源：責編：時間：2025-08-04 10:11:46 79觀看

導讀在 ACL 2025 的頒獎典禮上，由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯(lián)合發(fā)表的論文榮獲最佳論文獎。這次 ACL 2025 規(guī)模空前，總投稿量達到 8360 篇，相較于去年的 4407 篇幾乎翻倍，競爭異常激烈。簡單來說，他

在 ACL 2025 的頒獎典禮上，由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯(lián)合發(fā)表的論文榮獲最佳論文獎。

這次 ACL 2025 規(guī)模空前，總投稿量達到 8360 篇，相較于去年的 4407 篇幾乎翻倍，競爭異常激烈。

簡單來說，他們提出的原生稀疏注意力（NSA）機制，通過算法與硬件的協(xié)同優(yōu)化，直接把長文本處理速度提升了 11 倍。更厲害的是，性能不僅沒降反而還超越了傳統(tǒng)的全注意力模型。

一作袁境陽在會上發(fā)表演講，透露這項技術可以把上下文長度擴展到 1 百萬 tokens，將被應用到下一個前沿模型中。

結(jié)合論文發(fā)表于 DeepSeek-R1 推出之后，實驗設置中也提到使用了 DeepSeek-R1 的蒸餾數(shù)據(jù)來微調(diào)了新的模型。

大家紛紛猜測，這項技術將被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。

給注意力機制瘦身，速度狂飆 11 倍

長久以來，大語言模型處理長文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機制計算復雜度隨序列長度呈平方級增長，處理 64k 長度的文本時，注意力計算竟然要占到總延遲的 70-80%。

這篇論文的解決思路很巧妙：既然不是所有詞之間的關系都同等重要，為什么不讓模型學會”抓重點”呢？

NSA 采用了一種動態(tài)分層的稀疏策略，通過三條并行的注意力分支協(xié)同工作：

壓縮注意力，負責捕捉粗粒度的全局信息模式，就像快速瀏覽全文抓住大意；

選擇性注意力，則專注于序列中最重要的詞塊，相當于精讀關鍵段落；

滑動注意力，負責獲取局部的上下文信息，確保細節(jié)不丟失。

這種設計最精妙的地方在于，它不是簡單地丟棄信息，而是通過精心設計的算法平衡了計算密度。

更重要的是，整個架構(gòu)針對現(xiàn)代 GPU 硬件進行了深度優(yōu)化，實現(xiàn)了端到端的原生可訓練模式。

在實際測試中，處理 64k 長度序列時，NSA 在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢。

解碼階段速度提升 11.6 倍，前向傳播提升 9 倍，反向傳播也有 6 倍的加速，無論是模型推理還是訓練，都能獲得實實在在的效率提升。

不僅快還更準，長文本處理迎來新突破

速度快只是 NSA 的一面，更讓人驚訝的是它在各項基準測試中的表現(xiàn)。

在通用基準測試中，采用 NSA 預訓練的 27B 參數(shù)模型在 9 個評測指標中有 7 個超越了全注意力基線。特別是在推理相關的基準測試上，DROP 提升了 0.042，GSM8K 提升了 0.034，顯示出稀疏注意力在強制模型聚焦關鍵信息方面的獨特優(yōu)勢。

長文本處理能力的測試結(jié)果更是亮眼。在 64k 上下文的”大海撈針”測試中，NSA 在所有位置都實現(xiàn)了完美的檢索準確率。在 LongBench 基準測試上，NSA 取得了 0.469 的平均分，不僅超越了全注意力基線（+0.032），更是大幅領先其他稀疏注意力方法。

特別值得一提的是，在需要復雜推理的多跳問答任務上，NSA 相比全注意力分別提升了 0.087（HPQ）和 0.051（2Wiki）；在代碼理解任務（LCC）上提升了 0.069；在段落檢索任務（PassR-en）上提升了 0.075。

研究團隊還進行了一項有趣的實驗：

他們用 DeepSeek-R1 的數(shù)學推理數(shù)據(jù)對模型進行微調(diào)，然后在美國數(shù)學邀請賽（AIME 24）上測試。

結(jié)果顯示，NSA-R 在 8k 上下文設置下的準確率達到 0.121，而全注意力模型只有 0.046；即使在 16k 上下文下，NSA-R 仍然保持 0.146 的準確率，遠超全注意力的 0.092。

這些結(jié)果充分證明了 NSA 不是通過犧牲性能來換取速度，而是真正實現(xiàn)了效率和能力的雙贏。

Three More Thing

這次總共評選出 4 篇最佳論文，另外三篇包括：

北大團隊的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型語言模型的“彈性”，指模型經(jīng)過對齊訓練（讓模型符合人類價值觀、減少有害輸出）后，很容易因為后續(xù)的微調(diào)而變回預訓練時的狀態(tài)，就像彈簧被拉伸后會反彈一樣。

這意味著現(xiàn)有的對齊方法可能只是表面上改變了模型，不夠穩(wěn)固。未來需要更有效的對齊技術，才能讓模型真正穩(wěn)定地符合人類需求，尤其是在開源模型中，要避免惡意微調(diào)輕易破壞安全機制。

斯坦福團隊的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一個新視角“差異感知”。簡單來說，就是模型應該在合適的場景下對不同群體做出區(qū)分，而不是一味地一視同仁。

研究發(fā)現(xiàn)那些在傳統(tǒng)公平性測試中表現(xiàn)好的模型，在“差異感知”上得分并不高；模型能力越強（比如 MMLU 分數(shù)越高），情境感知能力越好，但差異感知能力未必提升；現(xiàn)有的“去偏見”方法（比如提示模型“保持無偏見”）反而會讓模型更無視差異，甚至把正確答案改錯。

亥姆霍茲信息安全中心等團隊的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

這篇論文指出大模型生成回答時的采樣機制與人類決策類似，包含描述性成分（反映概念的統(tǒng)計常態(tài)）和規(guī)定性成分（隱含的概念理想狀態(tài)）。

研究通過實驗驗證，無論是新創(chuàng)概念還是現(xiàn)有概念（涵蓋 10 個領域的 500 個概念），LLMs 生成的樣本都會偏離統(tǒng)計平均值，向其認為的“理想值”偏移，且這種現(xiàn)象在 15 種不同模型中均顯著存在。案例研究顯示，這種偏向可能導致醫(yī)療等領域的有偏決策，引發(fā)倫理問題。

DeepSeek 論文地址：

https://arxiv.org/abs/2502.11089

參考鏈接：

[1]https://x.com/aclmeeting/status/1950572483637067786

[2]https://x.com/casper_hansen_/status/1950649481617342803

本文鏈接：http://www.rrqrq.com/showinfo-45-25745-0.htmlDeepSeek 下一代技術提前曝光，梁文鋒署名論文獲 ACL 2025 最佳論文獎

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美國一州要建超大 AI 數(shù)據(jù)中心，初期耗電量就是全州家庭總和的 5 倍多

下一篇： OpenAI 回應“ChatGPT 用多了會變傻”：AI 本質(zhì)上是工具，關鍵在如何使用

標簽：

熱門焦點

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當紅齊天完成B輪+融資

今日熱點：蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構(gòu)建而成；VR/AR老牌企業(yè)當紅齊天完成B輪+融資；米哈游推出元宇宙品牌HoYoverse；國產(chǎn)VR射擊游戲《Contra
元宇宙社交啫喱、希壤爆款迭出，騰訊慌了嗎？

文 | 陳橋輝沒想到騰訊超級QQ秀的20周年歸來首秀，被一款名不見經(jīng)傳的產(chǎn)品搶了風頭。1月15日，一款名為“啫喱”的社交App迅速在各個互聯(lián)網(wǎng)的社交圈內(nèi)火爆起來，引起
Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

今日熱點：迪士尼任命新高管負責元宇宙業(yè)務；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達成合作，將為AR游戲《Ingress》帶來音頻體驗；V
2022年中國元宇宙產(chǎn)業(yè)系列研究報告-基礎設施篇（5）

傳感器是由敏感元件和轉(zhuǎn)換元件構(gòu)成，能夠感受規(guī)定的檢測量(物理量、化學量、生物量等)，并按照一定規(guī)律將檢測量轉(zhuǎn)化成可用的輸出信號的器件和裝置，進而滿足信息的
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區(qū)后，Shiba Inu
韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

韓國流行音樂巨頭 SM Entertainment 與加密貨幣交易所 Binance（幣安）達成“Play2Create”NFT 合作伙伴關系。SM 娛樂一直在投資打造元宇宙該公司于 2020 年 10
虛擬鄧麗君后，數(shù)字人賽道開啟3.0時代

“如果右腦時代來臨，虛擬世界將是對人類才華的無限放大。” 郭曉喆稱，開發(fā)數(shù)字人形象時，自己的團隊在內(nèi)部“卷”了一下：“當我們翻閱大量歷史典籍的時候，蘇小妹找到
2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

UGC作為元宇宙的主要內(nèi)容創(chuàng)作模式，已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

DeepSeek 下一代技術提前曝光，梁文鋒署名論文獲 ACL 2025 最佳論文獎

拯救XR，蘋果力不從心

米哈游推出元宇宙品牌；VR/AR老牌企業(yè)當紅齊天完成B輪+融資

元宇宙社交啫喱、希壤爆款迭出，騰訊慌了嗎？

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

2022年中國元宇宙產(chǎn)業(yè)系列研究報告-基礎設施篇（5）

Shiba Inu布局元宇宙走出Meme局限

韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

虛擬鄧麗君后，數(shù)字人賽道開啟3.0時代

2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

最新推薦

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

現(xiàn)在的元宇宙：一款低配版的科幻游戲

頭頂光環(huán)無數(shù)卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

對諷刺無動于衷，Nori將碳市場放在區(qū)塊鏈上

為什么元宇宙將永遠改變體育和你的生活？

元宇宙存在的意義和價值

猜你喜歡

熱門推薦

相關資訊