国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

DeepSeek 下一代技術提前曝光,梁文鋒署名論文獲 ACL 2025 最佳論文獎

來源: 責編: 時間:2025-08-04 10:11:46 79觀看
導讀 在 ACL 2025 的頒獎典禮上,由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯(lián)合發(fā)表的論文榮獲最佳論文獎。這次 ACL 2025 規(guī)模空前,總投稿量達到 8360 篇,相較于去年的 4407 篇幾乎翻倍,競爭異常激烈。簡單來說,他

在 ACL 2025 的頒獎典禮上,由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯(lián)合發(fā)表的論文榮獲最佳論文獎。DbF28資訊網(wǎng)——每日最新資訊28at.com

這次 ACL 2025 規(guī)模空前,總投稿量達到 8360 篇,相較于去年的 4407 篇幾乎翻倍,競爭異常激烈。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

簡單來說,他們提出的原生稀疏注意力(NSA)機制,通過算法與硬件的協(xié)同優(yōu)化,直接把長文本處理速度提升了 11 倍。更厲害的是,性能不僅沒降反而還超越了傳統(tǒng)的全注意力模型。DbF28資訊網(wǎng)——每日最新資訊28at.com

一作袁境陽在會上發(fā)表演講,透露這項技術可以把上下文長度擴展到 1 百萬 tokens,將被應用到下一個前沿模型中。DbF28資訊網(wǎng)——每日最新資訊28at.com

結(jié)合論文發(fā)表于 DeepSeek-R1 推出之后,實驗設置中也提到使用了 DeepSeek-R1 的蒸餾數(shù)據(jù)來微調(diào)了新的模型。DbF28資訊網(wǎng)——每日最新資訊28at.com

大家紛紛猜測,這項技術將被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

給注意力機制瘦身,速度狂飆 11 倍

長久以來,大語言模型處理長文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機制計算復雜度隨序列長度呈平方級增長,處理 64k 長度的文本時,注意力計算竟然要占到總延遲的 70-80%。DbF28資訊網(wǎng)——每日最新資訊28at.com

這篇論文的解決思路很巧妙:既然不是所有詞之間的關系都同等重要,為什么不讓模型學會”抓重點”呢?DbF28資訊網(wǎng)——每日最新資訊28at.com

NSA 采用了一種動態(tài)分層的稀疏策略,通過三條并行的注意力分支協(xié)同工作:DbF28資訊網(wǎng)——每日最新資訊28at.com

壓縮注意力,負責捕捉粗粒度的全局信息模式,就像快速瀏覽全文抓住大意;DbF28資訊網(wǎng)——每日最新資訊28at.com

選擇性注意力,則專注于序列中最重要的詞塊,相當于精讀關鍵段落;DbF28資訊網(wǎng)——每日最新資訊28at.com

滑動注意力,負責獲取局部的上下文信息,確保細節(jié)不丟失。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

這種設計最精妙的地方在于,它不是簡單地丟棄信息,而是通過精心設計的算法平衡了計算密度。DbF28資訊網(wǎng)——每日最新資訊28at.com

更重要的是,整個架構(gòu)針對現(xiàn)代 GPU 硬件進行了深度優(yōu)化,實現(xiàn)了端到端的原生可訓練模式。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

在實際測試中,處理 64k 長度序列時,NSA 在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢。DbF28資訊網(wǎng)——每日最新資訊28at.com

解碼階段速度提升 11.6 倍,前向傳播提升 9 倍,反向傳播也有 6 倍的加速,無論是模型推理還是訓練,都能獲得實實在在的效率提升。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

不僅快還更準,長文本處理迎來新突破

速度快只是 NSA 的一面,更讓人驚訝的是它在各項基準測試中的表現(xiàn)。DbF28資訊網(wǎng)——每日最新資訊28at.com

在通用基準測試中,采用 NSA 預訓練的 27B 參數(shù)模型在 9 個評測指標中有 7 個超越了全注意力基線。特別是在推理相關的基準測試上,DROP 提升了 0.042,GSM8K 提升了 0.034,顯示出稀疏注意力在強制模型聚焦關鍵信息方面的獨特優(yōu)勢。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

長文本處理能力的測試結(jié)果更是亮眼。在 64k 上下文的”大海撈針”測試中,NSA 在所有位置都實現(xiàn)了完美的檢索準確率。在 LongBench 基準測試上,NSA 取得了 0.469 的平均分,不僅超越了全注意力基線(+0.032),更是大幅領先其他稀疏注意力方法。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

特別值得一提的是,在需要復雜推理的多跳問答任務上,NSA 相比全注意力分別提升了 0.087(HPQ)和 0.051(2Wiki);在代碼理解任務(LCC)上提升了 0.069;在段落檢索任務(PassR-en)上提升了 0.075。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

研究團隊還進行了一項有趣的實驗:DbF28資訊網(wǎng)——每日最新資訊28at.com

他們用 DeepSeek-R1 的數(shù)學推理數(shù)據(jù)對模型進行微調(diào),然后在美國數(shù)學邀請賽(AIME 24)上測試。DbF28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果顯示,NSA-R 在 8k 上下文設置下的準確率達到 0.121,而全注意力模型只有 0.046;即使在 16k 上下文下,NSA-R 仍然保持 0.146 的準確率,遠超全注意力的 0.092。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

這些結(jié)果充分證明了 NSA 不是通過犧牲性能來換取速度,而是真正實現(xiàn)了效率和能力的雙贏。DbF28資訊網(wǎng)——每日最新資訊28at.com

Three More Thing

這次總共評選出 4 篇最佳論文,另外三篇包括:DbF28資訊網(wǎng)——每日最新資訊28at.com

北大團隊的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型語言模型的“彈性”,指模型經(jīng)過對齊訓練(讓模型符合人類價值觀、減少有害輸出)后,很容易因為后續(xù)的微調(diào)而變回預訓練時的狀態(tài),就像彈簧被拉伸后會反彈一樣。DbF28資訊網(wǎng)——每日最新資訊28at.com

這意味著現(xiàn)有的對齊方法可能只是表面上改變了模型,不夠穩(wěn)固。未來需要更有效的對齊技術,才能讓模型真正穩(wěn)定地符合人類需求,尤其是在開源模型中,要避免惡意微調(diào)輕易破壞安全機制。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

斯坦福團隊的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一個新視角“差異感知”。簡單來說,就是模型應該在合適的場景下對不同群體做出區(qū)分,而不是一味地一視同仁。DbF28資訊網(wǎng)——每日最新資訊28at.com

研究發(fā)現(xiàn)那些在傳統(tǒng)公平性測試中表現(xiàn)好的模型,在“差異感知”上得分并不高;模型能力越強(比如 MMLU 分數(shù)越高),情境感知能力越好,但差異感知能力未必提升;現(xiàn)有的“去偏見”方法(比如提示模型“保持無偏見”)反而會讓模型更無視差異,甚至把正確答案改錯。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

亥姆霍茲信息安全中心等團隊的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

這篇論文指出大模型生成回答時的采樣機制與人類決策類似,包含描述性成分(反映概念的統(tǒng)計常態(tài))和規(guī)定性成分(隱含的概念理想狀態(tài))。DbF28資訊網(wǎng)——每日最新資訊28at.com

研究通過實驗驗證,無論是新創(chuàng)概念還是現(xiàn)有概念(涵蓋 10 個領域的 500 個概念),LLMs 生成的樣本都會偏離統(tǒng)計平均值,向其認為的“理想值”偏移,且這種現(xiàn)象在 15 種不同模型中均顯著存在。案例研究顯示,這種偏向可能導致醫(yī)療等領域的有偏決策,引發(fā)倫理問題。DbF28資訊網(wǎng)——每日最新資訊28at.com

DbF28資訊網(wǎng)——每日最新資訊28at.com

DeepSeek 論文地址:DbF28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2502.11089DbF28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:DbF28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/aclmeeting/status/1950572483637067786DbF28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/casper_hansen_/status/1950649481617342803DbF28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-25745-0.htmlDeepSeek 下一代技術提前曝光,梁文鋒署名論文獲 ACL 2025 最佳論文獎

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美國一州要建超大 AI 數(shù)據(jù)中心,初期耗電量就是全州家庭總和的 5 倍多

下一篇: OpenAI 回應“ChatGPT 用多了會變傻”:AI 本質(zhì)上是工具,關鍵在如何使用

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
最新久久zyz资源站| 牛人盗摄一区二区三区视频| 成人免费毛片a| 亚洲国产合集| 91福利视频网站| 久久蜜桃一区二区| 亚洲精品视频在线观看免费 | 91美女精品福利| 国产乱码精品| 精品99一区二区| 亚洲已满18点击进入久久| 久久国产尿小便嘘嘘尿| 91丨porny丨户外露出| 久久午夜精品| 亚洲国产高清aⅴ视频| 久久精品国产第一区二区三区| 91在线视频官网| 蜜桃视频一区| 欧美激情一区二区| 精品系列免费在线观看| 一色屋精品视频在线观看网站| 欧美日韩日日夜夜| 亚洲欧美激情一区二区| 国产一区二区福利视频| 国产精品久久国产愉拍| 欧美精品一区二区蜜臀亚洲| 亚洲国产一二三| 91在线一区二区| 欧美三级电影在线看| 综合色天天鬼久久鬼色| 国产乱码精品一区二区三区忘忧草| 在线精品在线| www久久久久| 日本不卡123| 一区在线视频| 久久综合九色综合欧美亚洲| 日本美女一区二区三区| 亚洲国产一区二区三区在线播 | 国产综合色一区二区三区| 91精品国模一区二区三区| 偷拍与自拍一区| 99精品热6080yy久久| 久久综合色综合88| 国产曰批免费观看久久久| 可以免费看不卡的av网站| 亚洲精品日韩一| 午夜精品久久| 91麻豆精品国产综合久久久久久| 亚洲成人在线免费| 亚洲大胆在线| 国产精品国产三级国产普通话99| 成人h动漫精品一区二| 欧美日精品一区视频| 裸体歌舞表演一区二区| 久久视频一区二区| 久久se精品一区二区| 欧美伊人久久久久久午夜久久久久| 亚洲人成伊人成综合网小说| 欧美淫片网站| 中文一区二区完整视频在线观看| 91免费视频观看| 亚洲精品在线观看视频| 成人午夜伦理影院| 亚洲精品一区二区三区蜜桃下载| av在线一区二区三区| 亚洲精品一区二区在线观看| 99久久伊人久久99| 久久久国产综合精品女国产盗摄| 欧美在线免费| 国产精品国产三级国产aⅴ无密码| 国产精品va| 综合自拍亚洲综合图不卡区| 99在线|亚洲一区二区| 一区二区三区欧美| 免费国产一区二区| 日韩av电影天堂| 欧美午夜电影在线播放| 国产在线视频一区二区| 精品久久久久av影院| 97久久人人超碰| 久久久亚洲综合| av中文一区二区三区| 制服视频三区第一页精品| 日韩欧美成人午夜| 欧美日韩国产一区精品一区| 日韩欧美激情在线| 国产在线精品一区二区三区不卡| 色哟哟一区二区| 粉嫩av一区二区三区粉嫩| 欧美亚洲综合久久| 久久国产精品无码网站| 日本道精品一区二区三区 | 欧美bbbbb| 色综合久久久久综合99| 午夜精品久久久久久久99樱桃| 色国产精品一区在线观看| 1000部国产精品成人观看| 国产精品啊啊啊| 中文字幕中文字幕在线一区| 最新国产拍偷乱拍精品| 日本色综合中文字幕| 欧美图区在线视频| 美女视频黄免费的久久| 欧美日韩三级视频| 一区二区三区在线不卡| 欧美色综合网站| 成人在线综合网站| 久久男人中文字幕资源站| 色综合天天综合网国产成人综合天 | 亚洲一区二区视频| 久久岛国电影| 免费人成精品欧美精品| 免费高清成人在线| 久久不射网站| 欧美aⅴ一区二区三区视频| 色婷婷综合在线| 国产一区二区三区香蕉| 国产精品久久久久久久岛一牛影视| 国产精品自拍av| 9191久久久久久久久久久| 国内精品不卡在线| 精品国产亚洲在线| 国内精品久久久久久久果冻传媒 | 狼狼综合久久久久综合网| 成人精品视频一区二区三区| 久久综合网色—综合色88| 久久av资源网| 精品国产青草久久久久福利| 亚洲成人中文| 日韩国产高清影视| 日韩亚洲精品在线| 成人免费视频caoporn| 欧美精品一区二区不卡| 欧美区亚洲区| 午夜激情综合网| 99伊人成综合| 99久久精品情趣| ...中文天堂在线一区| 日本道精品一区二区三区| 国产成人福利片| 国产精品欧美综合在线| 99视频精品| 一区二区三区不卡视频| 色88888久久久久久影院野外| 91在线无精精品入口| 亚洲国产成人porn| 精品久久久久一区| 欧美日韩一区高清| 欧美午夜不卡| 久久成人免费网| 国产精品无圣光一区二区| www久久精品| 麻豆av一区二区三区| 97久久精品人人做人人爽| 日韩av电影免费观看高清完整版 | 国产精品1区二区.| 国产精品国产三级国产a| 久久午夜色播影院免费高清| 久久久久久久久久码影片| 欧美性事免费在线观看| 亚洲欧洲成人精品av97| 国产精品黄色| 亚洲人成电影网站色mp4| 91精品国产一区二区三区| 91久久亚洲| 亚洲尤物在线视频观看| 亚洲狠狠爱一区二区三区| 久久综合色天天久久综合图片| 一本大道av伊人久久综合| 精品一区二区三区在线观看| 久久爱另类一区二区小说| 亚洲免费在线电影| 久久久综合精品| 亚洲精选一区| 欧美中文字幕| 精品不卡一区| 99视频一区| av亚洲精华国产精华精华 | 粉嫩在线一区二区三区视频| 午夜日韩在线电影| 一本久道久久综合婷婷鲸鱼| 99亚洲伊人久久精品影院红桃| 91在线视频网址| 高清不卡一区二区在线| 日本成人在线网站| 国产成人综合亚洲网站| 日韩电影免费一区| 亚洲永久精品国产| 欧美性一二三区| 日韩欧美一区在线观看| 欧美日韩精品一区视频| 免费毛片一区二区三区久久久| 亚洲chinese男男1069| 亚洲另类中文字| 国产精品天干天干在线综合| 久久精品在线免费观看| 欧美视频一区二| 26uuu另类欧美| 精品久久久三级丝袜| 精品福利二区三区|