国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵

來源: 責編: 時間:2025-08-23 09:31:15 63觀看
導讀在人工智能領域,一項由牛津大學劉世偉教授領銜的國際合作研究近日引起了廣泛關注。該研究聯合了西湖大學、埃默里大學、大連理工大學及薩里大學等多家頂尖學府,其突破性成果已于2025年7月發表于人工智能領域的權威期刊

在人工智能領域,一項由牛津大學劉世偉教授領銜的國際合作研究近日引起了廣泛關注。該研究聯合了西湖大學、埃默里大學、大連理工大學及薩里大學等多家頂尖學府,其突破性成果已于2025年7月發表于人工智能領域的權威期刊上。論文題為《大型語言模型中的深度困境》,感興趣的讀者可訪問arXiv:2502.05795v2獲取全文。72128資訊網——每日最新資訊28at.com

該研究深入探討了當前最先進的大型語言模型(例如ChatGPT、Claude等)在訓練過程中的一個奇特現象:模型層次越深,后續層級的重要性反而越小。為了形象地說明這一問題,研究團隊將其比喻為一座智慧大樓,其中每一層本應各司其職,共同為最終智能輸出貢獻力量。然而,他們驚人地發現,大樓的上半部分“工匠”幾乎在消極怠工,即便移除這些層級,模型的整體表現也幾乎不受影響。72128資訊網——每日最新資訊28at.com

為了驗證這一現象的普遍性,研究團隊選取了當前流行的多個大型語言模型家族作為測試對象,包括Llama、Mistral、DeepSeek和Qwen系列。他們巧妙地設計了一系列實驗,通過逐一移除模型的不同層級,觀察并記錄模型性能的變化。實驗結果令人震驚:移除深層的多個層級后,模型的表現幾乎未受影響,甚至在某些情況下略有提升;相反,移除淺層的任何一層都會導致模型性能顯著下降。72128資訊網——每日最新資訊28at.com

研究團隊將這一奇特現象命名為“深度困境”。這一名稱形象地揭示了當前大型語言模型訓練中的一個根本矛盾:盡管我們投入了大量計算資源來訓練更深的模型,期望獲得更強的能力,但實際上,越深的層級對模型的貢獻越小,仿佛被某種無形的困境所束縛。72128資訊網——每日最新資訊28at.com

為了深入理解這一現象,研究團隊進一步分析了層與層之間表示的相似性。他們利用角度距離這一數學工具來測量不同層級的輸出相似性。結果表明,在深層網絡中,相鄰層級的輸出幾乎完全相同,這意味著這些層級只是在重復前面層級的工作,沒有產生任何新的有用信息。72128資訊網——每日最新資訊28at.com

研究團隊還對比了兩種不同的網絡架構設計:現代大型語言模型普遍采用的“前置層歸一化”(Pre-LN)與較早模型使用的“后置層歸一化”(Post-LN)。通過對比實驗,他們發現采用Pre-LN的模型更容易出現深度困境現象,而采用Post-LN的模型則表現出相反的趨勢:深層比淺層更重要。這一發現為理解深度困境的根源提供了重要線索。72128資訊網——每日最新資訊28at.com

為了揭示深度困境的理論根源,研究團隊深入探討了Pre-LN架構的工作原理。他們發現,在Pre-LN架構中,隨著網絡層數的增加,輸出的方差會呈指數級增長。這種增長導致深層網絡的梯度趨近于單位矩陣,使得這些層級幾乎變成了“透明層”,沒有進行任何有意義的轉換。為了直觀理解這一概念,研究團隊用烹飪過程進行了類比:如果后續步驟只是簡單的“保溫”操作,那么無論進行多少步驟,最終的味道都不會有太大變化。72128資訊網——每日最新資訊28at.com

面對這一棘手問題,研究團隊提出了一個簡潔而有效的解決方案:層歸一化縮放(LNS)。這一方法的核心思想是通過給每一層的輸出乘以一個與層深度相關的縮放因子來控制方差的增長。縮放因子等于當前層深度的平方根的倒數,即1/√l,其中l為層的索引。這種設計確保了每一層都能發揮其應有的作用,避免了深層網絡的“偷懶”現象。72128資訊網——每日最新資訊28at.com

為了驗證LNS的有效性,研究團隊進行了大規模的實驗驗證。實驗涵蓋了從小型模型到大型模型的各種規模,結果顯示LNS在所有測試規模上都顯著優于傳統的歸一化方法。特別是在工業級別的訓練規模下,LNS仍然表現出顯著的性能提升。72128資訊網——每日最新資訊28at.com

研究團隊還進行了下游任務的微調實驗。他們使用Commonsense170K數據集在八個不同的推理任務上測試了經過LNS預訓練的模型。結果顯示,使用LNS預訓練的模型在微調后的表現也明顯優于傳統方法。這表明LNS不僅改善了預訓練效果,還增強了模型的通用學習能力。72128資訊網——每日最新資訊28at.com

為了深入理解LNS的工作機制,研究團隊還進行了詳細的分析實驗。他們驗證了LNS確實能夠有效控制輸出方差,并分析了LNS對層間表示多樣性的影響。實驗結果表明,LNS成功地讓每一層都發揮了應有的作用,提高了模型的整體性能。72128資訊網——每日最新資訊28at.com

LNS的實現既簡單又巧妙。它不需要引入額外的可學習參數或調整任何超參數,只需在每個層歸一化操作的輸出后乘以相應的縮放因子即可。這種設計既保持了Pre-LN的訓練穩定性優勢,又解決了深層網絡效果不佳的問題。72128資訊網——每日最新資訊28at.com

值得注意的是,研究團隊還發現LNS與某些初始化策略可能存在沖突。他們建議在使用LNS時移除縮放初始化以獲得最佳性能提升。研究團隊還將LNS應用到視覺Transformer中進行了初步探索,發現LNS的具體實現可能需要根據不同的模型架構和任務進行調整。72128資訊網——每日最新資訊28at.com

這項研究的實際應用價值巨大。當前訓練大型語言模型需要消耗大量計算資源和能源,而深度困境意味著其中相當一部分投資實際上是浪費的。LNS的引入能夠提高訓練效率和最終性能,降低計算成本。72128資訊網——每日最新資訊28at.com

對于工業界來說,這意味著在相同的計算預算下可以獲得更好的模型性能,或者在保持性能不變的情況下顯著降低計算成本。考慮到大型語言模型的訓練成本高昂,這種效率提升的經濟價值不言而喻。72128資訊網——每日最新資訊28at.com

對于研究界來說,這項工作開啟了重新審視現有架構設計的新視角。它表明,即使是被廣泛采用的設計選擇也可能存在根本性缺陷,需要更深入的理論分析來發現和解決。研究團隊的工作為未來模型架構的設計提供了重要指導,強調了在追求更深、更大的模型時,必須仔細考慮深度對模型行為的影響。72128資訊網——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0    更多>同類資訊字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績智東西8月21日報道,今天,字節跳動Seed團隊開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設計,將上下文窗口擴展至512k,是業界常見上下文窗口(128k)的4倍,GP…08-22vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新正值企業三十周年之際,vivo不僅重磅發布了混合現實頭顯探索版,還宣布了影像技術戰略及影像文化生態的全新布局,并揭曉了2025 vivo影像加手機攝影大賽結果。作為國內首家同時布局手機與MR的科技企業,viv…08-22vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景胡柏山在闡述vivo科技戰略藍圖時提到:“我們致力于通過手機AI、影像和MR能力,短期滿足用戶對大屏沉浸感的需求,長遠作為機器人的眼睛和大腦,攻克家庭這一非結構化場景下的‘感知-決策’難題,搭建未來家庭機器人…08-22百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力百度新任CFO何海建在此次電話會上稱,在過去的幾個季度里,百度加大了AI投資力度,但由于AI搜索的商業化仍處于非常早期的階段,尚未擴大規模,預計百度的收入和利潤率在短期內面臨相當大的壓力,第三季度將特別具有…08-22文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命08-22文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新紀元08-22AI陪伴市場升溫,雷軍馬斯克等資本大佬入局,長期記憶痛點待解郭戈稱,資本追逐這一賽道并非偶然,因為陪伴本身就是玩具的核心價值,而AI的加入則賦予其“情緒價值”,擴大了市場蛋糕。 萬物時創始人萬一(Roy)也向時代周報記者強調,“情感陪伴一定是長期的本質需求,和文化消費…08-22智匯教育未來:名校長共探基礎教育數字化變革新航向來自全國多地的名校長與專家學者齊聚一堂,圍繞基礎教育數字化變革、學校數字轉型與智能升級、校長數字化領導力等核心議題,深入交流聯盟內外部實踐經驗,共話智慧教育發展新路徑。 論壇由教育數字化行動百校聯盟聯合北京師…08-22生成式AI投資熱,但95%企業未見回報,AI價值何在?08-22DeepSeek-V3.1重磅升級:提升思考效率,強化Agent功能新體驗08-22AI數學新突破:GPT-5 Pro獨立推導數學結論,OpenAI總裁贊其為智能新里程碑08-22DeepSeek-V3.1發布,專為下一代國產芯片設計,性能大幅提升08-22AI賦能旅行社:馬蜂窩繩志成詳解智能化轉型新策略08-22OpenAI員工完成60億美元股票出售,公司估值躍升至5000億美元08-22Lumen強化400Gbps數據中心連接,賦能AI經濟,加速企業數字化轉型Lumen Technologies對其美國網絡的數據中心和云連接進行了重大升級,通過戰略性擴張為大都市區提供高速數據中心連接能力。 Lumen表示,這將使客戶能夠輕松連接到數據中心和云接入點,擴展企業應用…08-21點擊查看更多 +全站最新影石Insta360 GO Ultra口袋相機上市:4K60fps,磁吸設計售2598元影石Insta360 GO Ultra口袋相機上市:4K60fps,磁吸設計售2598元榮耀Magic V Flip2豎折旗艦閃耀登場,高定設計與強勁性能并重榮耀Magic V Flip2豎折旗艦閃耀登場,高定設計與強勁性能并重谷歌Pixel 10系列:AI技術全面升級,領先蘋果打造智能新體驗谷歌Pixel 10系列:AI技術全面升級,領先蘋果打造智能新體驗vivo Vision探索版亮相:輕量化設計,OriginOS Vision系統引領自然交互新體驗vivo Vision探索版亮相:輕量化設計,OriginOS Vision系統引領自然交互新體驗影石Insta360 GO Ultra口袋相機震撼上市:4K60fps,售價2598元影石Insta360 GO Ultra口袋相機震撼上市:4K60fps,售價2598元榮耀Magic V Flip2高顏值登場:2億像素鏡頭+高定設計,售價5499元起榮耀Magic V Flip2高顏值登場:2億像素鏡頭+高定設計,售價5499元起熱門內容
  • 雷軍抖音賬號變動引熱議:武漢大學標簽悄然消失?
  • 阿里開源480B參數編程模型Qwen3-Coder,超越Kimi K2,強化學習訓練細節公開
  • 云計算新紀元:云智融合引領未來趨勢,安全與技術創新并行
  • 阿里巴巴1688升級AI服務:新品App與查詢工具上線,賦能中小企業高效采購
  • 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛星通訊技術加持
  • 浙大發布“悟空”類腦計算機:神經元規模超20億,模擬獼猴大腦
  • 2025年人工智能發展藍圖:趨勢、格局與行業應用深度剖析
  • 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標實現
  • 雷軍抖音賬號母校標簽“武漢大學”消失,或涉平臺隱私調整
  • 國家網信辦約談英偉達:要求闡釋H20算力芯片安全隱患及后門風險
  • 字節跳動AI底層架構領跑2025:技術、組織與財務全面賦能AI時代
  • 阿里自研旗艦AI眼鏡WAIC 2025首發,探索智能終端新未來
  • 英偉達H20芯片安全風險引關注,網信辦約談要求說明“追蹤定位”等技術詳情
  • 馬斯克將為Grok Heavy用戶帶來AI視頻生成器及虛擬男友“Valentine”測試版
  • 清華系黑馬!MonkeyCode成Cursor最強平替,保障代碼安全
本欄最新牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命

本文鏈接:http://www.rrqrq.com/showinfo-45-26818-0.html牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 恒揚數據:多芯異構技術引領,打造智算時代中心到邊緣的完整解決方案

下一篇: 字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績

標簽:
  • 熱門焦點
  • 虛擬人再升級,企業可以解放雙手了?

    來源:伯虎財經今天想跟大家來嘮嘮AI,其實聊到這個話題很多人都不陌生了。在ChatGPT和AIGC大熱背后,還有一位低調的“大佬”——虛擬人。比如咱們熟知的虛
  • B端難做:留給魔琺科技的時間不多了

    來源:零態LT元宇宙泡沫正在碎裂,進入2023年后這一賽道熱度一直在遞減。今年2月,微軟解散了成立僅四個月的工業元宇宙部門;今年3月,該公司2017年收購的虛擬現實社交平臺AltspaceVR
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 風口已至,多領域平臺融入社交元素!

    在眾多領域平臺中,社交元素都扮演著重要角色,如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨,社交產品不斷升級,社交元素推動流量變現,多平臺領域融入社交
  • 亞馬遜AIGC全家桶來襲,巨頭AI大亂戰都有什么殺手锏

    此前,亞馬遜云科技發布多款AIGC產品,其中包括AI大模型服務Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、軟件
  • 林俊杰、余文樂等明星相繼入局,元宇宙虛擬土地究竟有何魔力?

    上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注,該新聞一方面在娛樂圈引起了吃瓜群眾的好奇,另一方面在
  • NFT教育要從娃娃抓起!這些青少年藝術家已經賺取了幾千萬美金

    一些藝術家通過將他們的創作作為NFT出售而獲得了巨大收益。令人驚訝的是,許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而,請記住,在短
  • 音樂家如何利用NFTs來提高歌迷參與度

    "音樂是一種語言,不以特定的文字說話。它用情感說話,如果它在骨子里,它就在骨子里。" - Keith Richards音樂激勵著我們,使我們流淚,使我們充滿狂喜,并撫慰我們的靈魂
  • 元宇宙平臺會是上世紀末的互聯網嗎?

    “元宇宙”火了好幾個月,互聯網大廠忙于布局,資本市場熱烈追捧。然而很多人還是看不明白,更多的人覺得這是一場泡沫,一場騙局。一開始接觸這個怪里怪氣的名詞,感覺
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
日本精品裸体写真集在线观看| 亚洲欧洲三级| 国产精品女同互慰在线看 | 久久综合九色99| 国产在线看一区| 国产精品电影一区二区| 欧美怡红院视频| 国内久久视频| 国产.精品.日韩.另类.中文.在线.播放| 国产精品久久久一本精品| 欧美自拍丝袜亚洲| 精品电影一区| 不卡欧美aaaaa| 日韩成人免费电影| 国产精品的网站| 日韩午夜在线播放| 久久一区视频| 亚洲三级影院| 欧美一区二区三区在线免费观看 | 亚洲一级不卡视频| 国产欧美日韩另类一区| 91精品91久久久中77777| 黄色成人在线网址| 国产成人在线看| 日韩vs国产vs欧美| 亚洲视频在线观看三级| 日韩欧美国产1| 欧美午夜精品久久久久久孕妇| 亚洲精品在线二区| 欧美在线精品一区| 国产91富婆露脸刺激对白| 午夜电影久久久| 亚洲国产精品激情在线观看 | 国产精品久久久久久久久搜平片 | 午夜精品aaa| 一区在线中文字幕| 国产欧美视频一区二区三区| 欧美一区二区在线免费观看| 在线观看区一区二| 久久一区二区三区超碰国产精品| 日韩香蕉视频| 欧美日韩无遮挡| 欧美日韩爆操| 国产精品啊啊啊| 欧美日本三区| 欧美日韩亚洲一区在线观看| 欧美欧美全黄| 欧美久久影院| 永久域名在线精品| 亚洲精品偷拍| 欧美一区二区三区在| 色噜噜狠狠色综合中国| 一本久久a久久免费精品不卡| 亚洲一区三区在线观看| 亚洲一区二区精品在线观看| 国产精品久久久久久久久久直播| aa级大片欧美三级| 美女被久久久| 欧美日韩一区二区三区免费看| 欧美综合一区二区| 日韩一区二区三区高清免费看看| 日韩精品一区二区三区在线| 日韩一卡二卡三卡四卡| 精品久久99ma| 国产丝袜在线精品| 中文字幕视频一区| 亚洲主播在线播放| 日韩精品乱码av一区二区| 天天色综合成人网| 午夜精品福利在线| 国产综合久久久久久鬼色| 国产成人精品亚洲午夜麻豆| 99视频精品全部免费在线| 国产精品v欧美精品∨日韩| 亚洲精品极品| 亚洲国产精品久久艾草纯爱| 日韩主播视频在线| 视频在线观看一区| 狠狠色丁香久久婷婷综| 国产一区二区在线视频| av在线免费不卡| 亚洲经典在线| 欧美日韩一区中文字幕| 精品国产乱码久久久久久浪潮| 中文字幕精品一区二区精品绿巨人| 亚洲另类在线视频| 久久国内精品自在自线400部| 国产成人啪免费观看软件| 欧美视频官网| 色乱码一区二区三区88| 精品少妇一区二区三区在线播放| 国产精品无人区| 午夜影院久久久| 国产一区不卡在线| 亚洲动漫精品| 777a∨成人精品桃花网| 中文字幕一区二区三中文字幕| 亚洲一区二区黄色| 不卡一区二区三区四区| 免费亚洲视频| 久久综合av免费| 丝瓜av网站精品一区二区 | 国产精品一区在线观看你懂的| 欧美日本韩国一区二区三区| 欧美综合在线视频| 成人欧美一区二区三区黑人麻豆| 久久91精品久久久久久秒播| 欧美日韩一区二区三区在线观看免 | 在线观看91av| 一卡二卡三卡日韩欧美| 国产成人精品一区二区三区四区| 一区二区三区欧美在线| 欧美sm极限捆绑bd| 亚洲chinese男男1069| 欧美在线91| 欧美日本视频在线| 亚洲精品高清视频在线观看| 成人一级片在线观看| 色婷婷精品大视频在线蜜桃视频 | 天天操天天色综合| 亚洲视频福利| 日韩一级大片在线观看| 五月天激情小说综合| 亚洲无玛一区| 日韩精品一区二区三区视频| 午夜精彩视频在线观看不卡| 很黄很黄激情成人| 亚洲精品在线三区| 国产精品996| 欧美日韩综合一区| 亚洲福利国产精品| 日韩午夜在线| 亚洲欧美一区二区久久| 91免费观看国产| 精品久久久久久久人人人人传媒| 精品综合免费视频观看| 色婷婷精品久久二区二区蜜臀av| 亚洲三级久久久| 激情视频一区二区| 中文字幕av一区 二区| 91亚洲精品久久久蜜桃网站 | 91精品国产色综合久久| 久久99热99| 欧美性受极品xxxx喷水| 日韩电影一二三区| 一本一本久久a久久精品综合麻豆| 亚洲乱码国产乱码精品精的特点 | 欧美国产激情| 日本一区二区电影| 欧美精品一线| 国产精品欧美一级免费| 国产精品videosex极品| 国产精品久久久久影院色老大| 欧美精品福利| 综合婷婷亚洲小说| 国产精品日韩欧美一区| 亚洲国产精品影院| 在线精品视频一区二区三四| 精品一区免费av| 日韩一区二区电影在线| 不卡的电视剧免费网站有什么| 日韩精品一区二区三区中文不卡| 从欧美一区二区三区| 久久一区二区视频| 激情久久中文字幕| 亚洲一区二区三区四区不卡| 午夜宅男久久久| 免费成人在线网站| 91麻豆精品国产91久久久久| 波多野结衣中文一区| 国产精品久久久久一区二区三区| 日韩视频在线观看国产| 日日摸夜夜添夜夜添国产精品| 欧美伊人精品成人久久综合97| 国产美女精品在线| 日本一区二区免费在线观看视频| 亚洲区一区二区三区| 午夜不卡av免费| 日韩欧美电影一区| 国内精品久久国产| 日韩有码一区二区三区| 欧美一区二区三区日韩视频| 91亚洲国产成人精品一区二三| 亚洲精品伦理在线| 欧美日韩久久久| 欧美黄色大片网站| 亚洲一区二区三区国产| 欧美男同性恋视频网站| 欧美精品首页| 美女视频网站久久| 国产三级精品三级在线专区| 美女国产精品| 97se狠狠狠综合亚洲狠狠| 一个色综合av| 欧美电视剧免费全集观看| 伊人天天综合| 国产精品资源在线看| 最好看的中文字幕久久| 欧美日韩国产在线观看| 在线欧美亚洲|