在人工智能領域,一項由牛津大學劉世偉教授領銜的國際合作研究近日引起了廣泛關注。該研究聯合了西湖大學、埃默里大學、大連理工大學及薩里大學等多家頂尖學府,其突破性成果已于2025年7月發表于人工智能領域的權威期刊上。論文題為《大型語言模型中的深度困境》,感興趣的讀者可訪問arXiv:2502.05795v2獲取全文。ptV28資訊網——每日最新資訊28at.com
該研究深入探討了當前最先進的大型語言模型(例如ChatGPT、Claude等)在訓練過程中的一個奇特現象:模型層次越深,后續層級的重要性反而越小。為了形象地說明這一問題,研究團隊將其比喻為一座智慧大樓,其中每一層本應各司其職,共同為最終智能輸出貢獻力量。然而,他們驚人地發現,大樓的上半部分“工匠”幾乎在消極怠工,即便移除這些層級,模型的整體表現也幾乎不受影響。ptV28資訊網——每日最新資訊28at.com
為了驗證這一現象的普遍性,研究團隊選取了當前流行的多個大型語言模型家族作為測試對象,包括Llama、Mistral、DeepSeek和Qwen系列。他們巧妙地設計了一系列實驗,通過逐一移除模型的不同層級,觀察并記錄模型性能的變化。實驗結果令人震驚:移除深層的多個層級后,模型的表現幾乎未受影響,甚至在某些情況下略有提升;相反,移除淺層的任何一層都會導致模型性能顯著下降。ptV28資訊網——每日最新資訊28at.com
研究團隊將這一奇特現象命名為“深度困境”。這一名稱形象地揭示了當前大型語言模型訓練中的一個根本矛盾:盡管我們投入了大量計算資源來訓練更深的模型,期望獲得更強的能力,但實際上,越深的層級對模型的貢獻越小,仿佛被某種無形的困境所束縛。ptV28資訊網——每日最新資訊28at.com
為了深入理解這一現象,研究團隊進一步分析了層與層之間表示的相似性。他們利用角度距離這一數學工具來測量不同層級的輸出相似性。結果表明,在深層網絡中,相鄰層級的輸出幾乎完全相同,這意味著這些層級只是在重復前面層級的工作,沒有產生任何新的有用信息。ptV28資訊網——每日最新資訊28at.com
研究團隊還對比了兩種不同的網絡架構設計:現代大型語言模型普遍采用的“前置層歸一化”(Pre-LN)與較早模型使用的“后置層歸一化”(Post-LN)。通過對比實驗,他們發現采用Pre-LN的模型更容易出現深度困境現象,而采用Post-LN的模型則表現出相反的趨勢:深層比淺層更重要。這一發現為理解深度困境的根源提供了重要線索。ptV28資訊網——每日最新資訊28at.com
為了揭示深度困境的理論根源,研究團隊深入探討了Pre-LN架構的工作原理。他們發現,在Pre-LN架構中,隨著網絡層數的增加,輸出的方差會呈指數級增長。這種增長導致深層網絡的梯度趨近于單位矩陣,使得這些層級幾乎變成了“透明層”,沒有進行任何有意義的轉換。為了直觀理解這一概念,研究團隊用烹飪過程進行了類比:如果后續步驟只是簡單的“保溫”操作,那么無論進行多少步驟,最終的味道都不會有太大變化。ptV28資訊網——每日最新資訊28at.com
面對這一棘手問題,研究團隊提出了一個簡潔而有效的解決方案:層歸一化縮放(LNS)。這一方法的核心思想是通過給每一層的輸出乘以一個與層深度相關的縮放因子來控制方差的增長??s放因子等于當前層深度的平方根的倒數,即1/√l,其中l為層的索引。這種設計確保了每一層都能發揮其應有的作用,避免了深層網絡的“偷懶”現象。ptV28資訊網——每日最新資訊28at.com
為了驗證LNS的有效性,研究團隊進行了大規模的實驗驗證。實驗涵蓋了從小型模型到大型模型的各種規模,結果顯示LNS在所有測試規模上都顯著優于傳統的歸一化方法。特別是在工業級別的訓練規模下,LNS仍然表現出顯著的性能提升。ptV28資訊網——每日最新資訊28at.com
研究團隊還進行了下游任務的微調實驗。他們使用Commonsense170K數據集在八個不同的推理任務上測試了經過LNS預訓練的模型。結果顯示,使用LNS預訓練的模型在微調后的表現也明顯優于傳統方法。這表明LNS不僅改善了預訓練效果,還增強了模型的通用學習能力。ptV28資訊網——每日最新資訊28at.com
為了深入理解LNS的工作機制,研究團隊還進行了詳細的分析實驗。他們驗證了LNS確實能夠有效控制輸出方差,并分析了LNS對層間表示多樣性的影響。實驗結果表明,LNS成功地讓每一層都發揮了應有的作用,提高了模型的整體性能。ptV28資訊網——每日最新資訊28at.com
LNS的實現既簡單又巧妙。它不需要引入額外的可學習參數或調整任何超參數,只需在每個層歸一化操作的輸出后乘以相應的縮放因子即可。這種設計既保持了Pre-LN的訓練穩定性優勢,又解決了深層網絡效果不佳的問題。ptV28資訊網——每日最新資訊28at.com
值得注意的是,研究團隊還發現LNS與某些初始化策略可能存在沖突。他們建議在使用LNS時移除縮放初始化以獲得最佳性能提升。研究團隊還將LNS應用到視覺Transformer中進行了初步探索,發現LNS的具體實現可能需要根據不同的模型架構和任務進行調整。ptV28資訊網——每日最新資訊28at.com
這項研究的實際應用價值巨大。當前訓練大型語言模型需要消耗大量計算資源和能源,而深度困境意味著其中相當一部分投資實際上是浪費的。LNS的引入能夠提高訓練效率和最終性能,降低計算成本。ptV28資訊網——每日最新資訊28at.com
對于工業界來說,這意味著在相同的計算預算下可以獲得更好的模型性能,或者在保持性能不變的情況下顯著降低計算成本??紤]到大型語言模型的訓練成本高昂,這種效率提升的經濟價值不言而喻。ptV28資訊網——每日最新資訊28at.com
對于研究界來說,這項工作開啟了重新審視現有架構設計的新視角。它表明,即使是被廣泛采用的設計選擇也可能存在根本性缺陷,需要更深入的理論分析來發現和解決。研究團隊的工作為未來模型架構的設計提供了重要指導,強調了在追求更深、更大的模型時,必須仔細考慮深度對模型行為的影響。ptV28資訊網——每日最新資訊28at.com
舉報 0收藏 0打賞 0分享 0 更多>同類資訊
字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績智東西8月21日報道,今天,字節跳動Seed團隊開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設計,將上下文窗口擴展至512k,是業界常見上下文窗口(128k)的4倍,GP…08-22

vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新正值企業三十周年之際,vivo不僅重磅發布了混合現實頭顯探索版,還宣布了影像技術戰略及影像文化生態的全新布局,并揭曉了2025 vivo影像加手機攝影大賽結果。作為國內首家同時布局手機與MR的科技企業,viv…08-22

vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景胡柏山在闡述vivo科技戰略藍圖時提到:“我們致力于通過手機AI、影像和MR能力,短期滿足用戶對大屏沉浸感的需求,長遠作為機器人的眼睛和大腦,攻克家庭這一非結構化場景下的‘感知-決策’難題,搭建未來家庭機器人…08-22

百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力百度新任CFO何海建在此次電話會上稱,在過去的幾個季度里,百度加大了AI投資力度,但由于AI搜索的商業化仍處于非常早期的階段,尚未擴大規模,預計百度的收入和利潤率在短期內面臨相當大的壓力,第三季度將特別具有…08-22

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命08-22

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新紀元08-22

AI陪伴市場升溫,雷軍馬斯克等資本大佬入局,長期記憶痛點待解郭戈稱,資本追逐這一賽道并非偶然,因為陪伴本身就是玩具的核心價值,而AI的加入則賦予其“情緒價值”,擴大了市場蛋糕。 萬物時創始人萬一(Roy)也向時代周報記者強調,“情感陪伴一定是長期的本質需求,和文化消費…08-22

智匯教育未來:名校長共探基礎教育數字化變革新航向來自全國多地的名校長與專家學者齊聚一堂,圍繞基礎教育數字化變革、學校數字轉型與智能升級、校長數字化領導力等核心議題,深入交流聯盟內外部實踐經驗,共話智慧教育發展新路徑。 論壇由教育數字化行動百校聯盟聯合北京師…08-22生成式AI投資熱,但95%企業未見回報,AI價值何在?08-22DeepSeek-V3.1重磅升級:提升思考效率,強化Agent功能新體驗08-22AI數學新突破:GPT-5 Pro獨立推導數學結論,OpenAI總裁贊其為智能新里程碑08-22

DeepSeek-V3.1發布,專為下一代國產芯片設計,性能大幅提升08-22AI賦能旅行社:馬蜂窩繩志成詳解智能化轉型新策略08-22OpenAI員工完成60億美元股票出售,公司估值躍升至5000億美元08-22

Lumen強化400Gbps數據中心連接,賦能AI經濟,加速企業數字化轉型Lumen Technologies對其美國網絡的數據中心和云連接進行了重大升級,通過戰略性擴張為大都市區提供高速數據中心連接能力。 Lumen表示,這將使客戶能夠輕松連接到數據中心和云接入點,擴展企業應用…08-21點擊查看更多 +
全站最新
影石Insta360 GO Ultra口袋相機上市:4K60fps,磁吸設計售2598元

榮耀Magic V Flip2豎折旗艦閃耀登場,高定設計與強勁性能并重

谷歌Pixel 10系列:AI技術全面升級,領先蘋果打造智能新體驗

vivo Vision探索版亮相:輕量化設計,OriginOS Vision系統引領自然交互新體驗

影石Insta360 GO Ultra口袋相機震撼上市:4K60fps,售價2598元

榮耀Magic V Flip2高顏值登場:2億像素鏡頭+高定設計,售價5499元起
熱門內容- 雷軍抖音賬號變動引熱議:武漢大學標簽悄然消失?
- 阿里開源480B參數編程模型Qwen3-Coder,超越Kimi K2,強化學習訓練細節公開
- 云計算新紀元:云智融合引領未來趨勢,安全與技術創新并行
- 阿里巴巴1688升級AI服務:新品App與查詢工具上線,賦能中小企業高效采購
- 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛星通訊技術加持
- 浙大發布“悟空”類腦計算機:神經元規模超20億,模擬獼猴大腦
- 2025年人工智能發展藍圖:趨勢、格局與行業應用深度剖析
- 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標實現
- 雷軍抖音賬號母校標簽“武漢大學”消失,或涉平臺隱私調整
- 國家網信辦約談英偉達:要求闡釋H20算力芯片安全隱患及后門風險
- 字節跳動AI底層架構領跑2025:技術、組織與財務全面賦能AI時代
- 阿里自研旗艦AI眼鏡WAIC 2025首發,探索智能終端新未來
- 英偉達H20芯片安全風險引關注,網信辦約談要求說明“追蹤定位”等技術詳情
- 馬斯克將為Grok Heavy用戶帶來AI視頻生成器及虛擬男友“Valentine”測試版
- 清華系黑馬!MonkeyCode成Cursor最強平替,保障代碼安全
本欄最新
牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵

字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績

vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新

vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景

百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命
本文鏈接:http://www.rrqrq.com/showinfo-45-26818-0.html牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 恒揚數據:多芯異構技術引領,打造智算時代中心到邊緣的完整解決方案
下一篇: 字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績