国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

克服獎勵欺騙:Meta 發布全新后訓練方式 CGPO 編程水平直升 5%,打破 RLHF 瓶頸

來源: 責編: 時間:2024-11-05 08:18:01 139觀看
導讀 CGPO 框架通過混合評審機制和約束優化器,有效解決了 RLHF 在多任務學習中的獎勵欺騙和多目標優化問題,顯著提升了語言模型在多任務環境中的表現。CGPO 的設計為未來多任務學習提供了新的優化路徑,有望進一步提升

CGPO 框架通過混合評審機制和約束優化器,有效解決了 RLHF 在多任務學習中的獎勵欺騙和多目標優化問題,顯著提升了語言模型在多任務環境中的表現。CGPO 的設計為未來多任務學習提供了新的優化路徑,有望進一步提升大型語言模型的效能和穩定性。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

近年來,隨著大規模語言模型(LLMs)的發展,特別是通用大模型的應用場景愈發廣泛,RLHF 逐漸成為調整和優化語言模型輸出的主流方法。UqG28資訊網——每日最新資訊28at.com

盡管 RLHF 在處理復雜任務時表現出色,但其在多任務學習(MTL)中的表現卻受限于「獎勵欺騙」以及多目標優化中的矛盾問題。UqG28資訊網——每日最新資訊28at.com

傳統的 RLHF 方法依賴于線性組合的獎勵模型,不僅需要人工調參,且容易導致模型被某一任務的獎勵優化「誤導」。UqG28資訊網——每日最新資訊28at.com

最近 Meta GenAI 和 FAIR 團隊提出了一個全新的后訓練范式 ——Constrained Generative Policy Optimization (CGPO),通過引入「混合評審機制」(Mixture of Judges, MoJ)與高效的約束優化器,全面提升了 RLHF 在多任務環境中的表現。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/ pdf/2409.20370

實驗結果表明,CGPO 能夠根據任務的不同需求靈活調整優化策略,并通過多任務梯度累積來實現模型的更新,使其在處理不同任務時均能達到最佳表現。UqG28資訊網——每日最新資訊28at.com

CGPO 框架:打破 RLHF 瓶頸的全新設計

CGPO 的核心在于它突破了傳統 RLHF 對多任務學習的局限性,尤其是在獎勵優化與任務目標沖突之間找到了新的平衡。通過混合評審機制,CGPO 能夠有效識別并消除「獎勵欺騙」行為,即模型在某些任務中過度優化特定的獎勵指標,進而導致其他任務的表現下降。UqG28資訊網——每日最新資訊28at.com

此外,CGPO 的約束優化器具備自動化調節能力,使其可以在不依賴人工經驗的情況下,找到不同任務間的最優平衡點。UqG28資訊網——每日最新資訊28at.com

CGPO 采用了基于規則和 LLM 的雙重評審機制。在規則評審中,預先定義的規則能夠有效檢測出模型生成結果是否符合任務需求,如解決數學問題的正確性、代碼生成的準確性等;而 LLM 評審則利用語言模型的內在判斷能力,檢測生成內容的事實性、響應的安全性等,這對于處理復雜對話和開放性問題尤為重要。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

CGPO 的核心貢獻

CGPO 的設計從根本上解決了 RLHF 在多任務優化中的兩大難題:UqG28資訊網——每日最新資訊28at.com

1. 獎勵欺騙的防范UqG28資訊網——每日最新資訊28at.com

CGPO 通過混合評審機制,在模型生成的過程中持續監控獎勵欺騙行為,保證模型不會過度優化某一任務的獎勵,而犧牲其他任務的表現。不同于傳統 RLHF 方法,CGPO 能夠智能檢測出不合規的生成內容,并通過約束策略進行調整。UqG28資訊網——每日最新資訊28at.com

2. 極端多目標優化問題的解決UqG28資訊網——每日最新資訊28at.com

多任務學習通常涉及多個甚至沖突的目標,傳統的 RLHF 框架難以處理這些目標之間的平衡。而 CGPO 通過為每個任務單獨設定評審和優化器,確保各任務能夠獨立優化其目標,避免了不同任務目標之間的相互妥協。最終,CGPO 為多任務學習提供了更優的帕累托前沿解。UqG28資訊網——每日最新資訊28at.com

技術亮點:三大優化器與多評審機制

CGPO 引入了三種主要的 RLHF 約束優化器 ——Calibrated Regularized Policy Gradient(CRPG)、Constrained Regularized Reward Ranking Finetuning(CRRAFT)、Constrained Online DPO(CODPO),這些優化器不僅有效解決了 RLHF 中的多任務優化難題,還具備強大的擴展性,適用于各種規模的 LLM 訓練場景。UqG28資訊網——每日最新資訊28at.com

1. CRPG 優化器:通過結合獎勵建模與約束調整,確保模型生成高質量響應,同時防止偏離既定約束。實驗中,CRPG 在數學、編程等需要精確計算和邏輯推理的任務中表現尤為突出。UqG28資訊網——每日最新資訊28at.com

2. CRRAFT 優化器:通過獎勵排名策略,只保留滿足所有約束條件的生成結果,同時提升獎勵值。該優化器在真相問答、指令跟隨等任務中表現出色。UqG28資訊網——每日最新資訊28at.com

3. CODPO 優化器:通過直接偏好優化,使得高獎勵值且符合約束的生成結果得以保留,提升模型整體表現。UqG28資訊網——每日最新資訊28at.com

CGPO 處理多任務場景

在多任務環境下,CGPO 通過“獎勵模型 + 多任務判定器 (MoJs) + 優化器”的組合,為每個任務提供量身定制的對齊指導,從而更好地適應每個任務的獨特特性,增加實現最優對齊結果的可能性。CGPO 框架的核心包括兩個部分:多目標獎勵建模和多專家對齊。UqG28資訊網——每日最新資訊28at.com

1. 多目標獎勵建模UqG28資訊網——每日最新資訊28at.com

CGPO 的多目標獎勵建模不同于傳統 RLHF(在多目標場景中的方法。傳統方法通常為所有任務使用統一的線性組合獎勵模型,而 CGPO 則先將提示集 D 按照性質分類為不同、不重疊的子集,即 D = {D1, D2,..., DL},每個子集 Di 對應一個特定任務,例如包含有害意圖的提示歸為“有害意圖”任務,而一般對話提示歸為「普通對話」任務。UqG28資訊網——每日最新資訊28at.com

然后,針對每個任務,選擇一個合適的獎勵模型進行訓練,以確保每個任務在優化過程中只關注自身的目標指標,避免其他任務目標的干擾。通過這種分類和獎勵模型定制,CGPO 能更好地排除不相關或相互矛盾的目標,從而提高在每個任務中達成最優結果的可能性。UqG28資訊網——每日最新資訊28at.com

2. 多專家對齊UqG28資訊網——每日最新資訊28at.com

多專家對齊是指為每個任務應用定制化的多任務判定器(MoJs)、獎勵模型和優化器設置。在每個任務生成樣本后,使用專門為該任務定制的判定器來篩選不符合標準的生成結果。判定器的選擇因任務而異,以反映各獎勵模型的具體缺點和對 LLM 的預期標準。UqG28資訊網——每日最新資訊28at.com

例如,在「普通對話」任務中,判定器會專注于評估回復的真實性和拒答情況,從而提升模型的響應性和可靠性。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

而在「推理」任務中,則使用基于規則的數學 / 編程判定器,以確保輸出的準確性。在有約束要求且需要更廣泛探索的任務(如指令跟隨、數學和編程)中,CGPO 會采用較寬松的 KL 閾值,并允許每個提示生成更多的樣本;而在不需要廣泛探索的任務(如普通對話)中,則使用更嚴格的 KL 閾值,并減少生成樣本的數量。UqG28資訊網——每日最新資訊28at.com

CGPO 在每次迭代中處理各個任務,基于任務特定的提示集、獎勵模型、判定器來計算更新的梯度,然后將所有任務的梯度累加,并結合預定義的任務權重更新模型參數。通過這種方式 CGPO 能在多任務、多約束的環境中高效地實現各任務之間的平衡與對齊,優化每個任務的獨特目標。UqG28資訊網——每日最新資訊28at.com

最終,CGPO 的設計使其能夠在多任務環境中更靈活地適應不同任務的需求,達成更高效的對齊和優化效果。UqG28資訊網——每日最新資訊28at.com

實驗驗證:CGPO 的顯著性能提升

在多項任務的測試中,CGPO 展現了顯著的性能優勢。具體來說,在通用聊天任務(AlpacaEval-2)、STEM 問題解答任務(Arena-Hard)、指令跟隨(IFEval)、數學與推理(MATH 和 GSM8K)、編程任務(HumanEval)、以及知識問答(ARC Challenge)中,CGPO 均大幅超越現有的 RLHF 算法如 PPO 和 DPO。UqG28資訊網——每日最新資訊28at.com

實驗數據顯示,CGPO 在 AlpacaEval-2 中相較 PPO 提升了 7.4%,在 Arena-Hard 中提升了 12.5%,而在數學推理任務(MATH 和 GSM8K)中,CGPO 表現穩定,分別提升了 2%,在人類評估(HumanEval)中的編程測試上則提升了 5%。UqG28資訊網——每日最新資訊28at.com

此外,PPO 在編程任務中表現出獎勵欺騙行為,導致模型在訓練后期出現嚴重退化,而 CGPO 通過約束優化有效避免了這一問題,確保模型表現穩定。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

在 CGPO 與 PPO 的性能對比中,CGPO 結合 CRPG 和 CRRAFT 優化器在多個基準測試中持續提升,尤其在 ARC Challenge、HumanEval、MBPP 等任務上表現出色。UqG28資訊網——每日最新資訊28at.com

相比之下,PPO 在編碼任務中出現顯著下滑,表明獎勵欺騙問題嚴重。雖然 CODPO 優化器表現稍弱,但總體上仍優于 DPO 和 PPO,特別是在安全性任務中,CODPO 取得了最佳結果,展示了其在多任務微調中的卓越效果。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

通過消融實驗可以發現 MoJs 不僅能防止在在編碼任務里的獎勵欺騙,還顯著提升了模型在 MATH 和 GSM8K 中的表現。UqG28資訊網——每日最新資訊28at.com

UqG28資訊網——每日最新資訊28at.com

結論:CGPO 為多任務學習的未來鋪路

CGPO 框架的提出,為強化學習與人類反饋在多任務學習中的應用提供了革命性的新思路。UqG28資訊網——每日最新資訊28at.com

通過創新的混合評審機制與三大約束優化器,CGPO 不僅有效解決了獎勵欺騙和極端多目標優化的難題,還為大型語言模型的后訓練提供了更穩定和高效的優化路徑。隨著研究的深入,未來我們有望看到更多基于 CGPO 的自動化優化方法,進一步提升多任務學習的表現。UqG28資訊網——每日最新資訊28at.com

參考資料:UqG28資訊網——每日最新資訊28at.com

https://arxiv.org/pdf/2409.20370UqG28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-9395-0.html克服獎勵欺騙:Meta 發布全新后訓練方式 CGPO 編程水平直升 5%,打破 RLHF 瓶頸

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 蘋果 AI 研究:“獼猴桃”簡單算術考倒 o1 和 Llama 等 20 多個最先進模型

下一篇: 谷歌推出新付費功能,借助搜索結果對抗 AI 幻覺問題

標簽:
  • 熱門焦點
  • ChatGPT訪問量增速下滑,AI真的是一場泡沫嗎?

    來源:首席商業評論2023年,最火的莫過于ChatGPT,席卷全球的同時也引發了生成式AI(人工智能)的投資熱潮。在美股,ChatGPT相關概念股飆漲,以AI算力龍頭英偉達為例,其股價年內一度累計上
  • 錯過了BRC20還有eths,eth銘文協議

    來源:三頭鳥NFT大家好,我是鳥哥,了解鳥哥的人都知道鳥哥擅擼空投,說實話擼毛雖然回報大但周期還是有點長的,所以除了擼毛我們自己也在研究早期項目,打新,比如BRC20協議ordi當時就有
  • 【量子位】虛擬數字人深度產業報告 | 元宇宙Meta洞見

    虛擬數字人行業未來的主要驅動力包括:用戶代際變化,新一代消費者對內容消費和虛擬世界更為渴求;虛擬數字人相關技術門檻相對降低,成本有所回落;資本熱度上升,受Metav
  • 元宇宙社交啫喱、希壤爆款迭出,騰訊慌了嗎?

    文 | 陳橋輝沒想到騰訊超級QQ秀的20周年歸來首秀,被一款名不見經傳的產品搶了風頭。1月15日,一款名為“啫喱”的社交App迅速在各個互聯網的社交圈內火爆起來,引起
  • 摩根大通:元宇宙市場預計每年收入超1萬億美元

    今日《元宇宙新鮮事》有:香港首屆元宇宙藝博會將于5月舉辦;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虛擬現實平臺Horizon Worlds月活躍用戶在三個
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • Kitten Coup社區反轉Cool Kittens NFT騙局

    當狂熱的加密愛好者將金錢投入到NFT圖片時,渾水摸魚的騙局隨之而來,Cool Kittens NFT便是其中一個作惡者,該項目于去年11月在Sonala鏈上啟動小貓形象的NFT鑄造及
  • NFT世界的藝術家名單

    我們匯編了以下藝術家的名單,它包括每個藝術家的簡短概述。當然,這份名單肯定不全面,還有很多很多藝術家、哲學家和商業領袖為世界貢獻了不可估量的價值。而他們
  • 多位全國政協委員提交元宇宙提案,國金證券稱元宇宙仍處初期投資階段

    財聯社|區塊鏈日報2日訊 今日《元宇宙新鮮事》有:全國政協委員劉偉建議出臺“元宇宙中國”的頂層設計方案;國金證券稱元宇宙仍處初期投資龐大獲利不易階段;阿聯酋
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
高清日韩电视剧大全免费| 曰韩精品一区二区| 久久狠狠亚洲综合| 国产亚洲成人一区| 国产日本一区二区| 成人av电影观看| 一本色道a无线码一区v| 国产精品丝袜一区| 成人app网站| 精品国产免费人成在线观看| 日本vs亚洲vs韩国一区三区 | 国产精品一区二区免费不卡 | 欧美福利电影在线观看| 欧美成人艳星乳罩| 成人美女在线观看| 日韩欧美一级精品久久| 国产精品911| 日韩视频123| 国产白丝精品91爽爽久久| 欧美日韩1区2区| 国产一区二区不卡| 欧美精品aⅴ在线视频| 精品一区二区三区免费视频| 91成人看片片| 久久不见久久见中文字幕免费| 色综合久久99| 日韩av中文在线观看| 久久亚洲欧洲| 久久99精品国产麻豆婷婷洗澡| 欧美亚洲综合网| 久久精品999| 欧美一级电影网站| 99在线精品视频| 日本一区二区三区免费乱视频| 欧美成人一区二区在线| 中文字幕第一区综合| 亚洲高清自拍| 图片区小说区国产精品视频| 日本韩国精品在线| 国产精品中文欧美| 久久亚洲免费视频| 精品1区2区| 亚洲福利视频一区二区| 91国偷自产一区二区三区观看 | 国产精品萝li| 一区二区三区四区国产| 亚洲国产美国国产综合一区二区| 久久五月激情| 国产精品白丝av| 国产午夜精品久久| 国产日韩欧美一区二区三区在线观看 | 亚洲国产裸拍裸体视频在线观看乱了中文| 亚洲欧美综合另类在线卡通| 国产精品一区亚洲| 狠狠色狠狠色综合| www国产精品av| 一区在线视频观看| 日本一区中文字幕| 精品人伦一区二区色婷婷| 国产精品成人观看视频免费| 亚洲一区二区免费视频| 精品视频全国免费看| 99久久er热在这里只有精品66| 国产精品久久久久久久浪潮网站| 亚洲在线成人| 岛国av在线一区| 中文字幕在线观看一区二区| 久久综合网络一区二区| 从欧美一区二区三区| 亚洲天堂2014| 欧美精品黑人性xxxx| 国模一区二区三区| 久久精品99国产精品日本| 2024国产精品| 久久精品五月婷婷| 99久久er热在这里只有精品66| 一区二区三区精品在线| 欧美一级高清片| 在线视频精品一区| 福利视频网站一区二区三区| 亚洲另类春色校园小说| 欧美日韩成人在线一区| 亚洲大胆视频| 福利一区福利二区| 日韩专区欧美专区| 国产婷婷一区二区| 欧美日韩在线观看一区二区 | 欧美日韩综合| 久久精品久久精品| 亚洲欧美日韩电影| 欧美成人a在线| 日本精品视频一区二区| 欧美黄色免费| 狠狠色丁香婷综合久久| 亚洲美女电影在线| 久久噜噜亚洲综合| 欧美三级电影精品| 国产日韩欧美一区二区三区在线观看| 国产成人免费xxxxxxxx| 亚洲va国产天堂va久久en| 久久色在线观看| 欧美乱妇23p| 午夜在线一区| 亚洲午夜精品久久久久久app| 国产精品一区二区免费不卡| 亚洲国产精品自拍| 中文字幕国产一区| 欧美成人国产一区二区| 欧美在线小视频| 宅男噜噜噜66国产日韩在线观看| 91丝袜呻吟高潮美腿白嫩在线观看| 久久不见久久见中文字幕免费| 亚洲精品日日夜夜| 日本一区二区三区视频视频| 日韩三级精品电影久久久 | 在线观看视频一区| 国产日韩一区二区三区| 午夜电影亚洲| 99在线视频精品| 国产大陆亚洲精品国产| 久久丁香综合五月国产三级网站| 亚洲一二三区视频在线观看| **欧美大码日韩| 日本一区二区成人在线| 久久伊人中文字幕| 日韩精品自拍偷拍| 欧美一区二区三区在线| 欧美日韩精品欧美日韩精品一综合| 噜噜噜91成人网| 亚洲在线电影| 午夜在线a亚洲v天堂网2018| 99精品国产一区二区青青牛奶 | 精品无人码麻豆乱码1区2区 | 日韩av电影一区| 日韩精品亚洲一区二区三区免费| 亚洲免费在线观看| 亚洲色图一区二区三区| 综合欧美亚洲日本| 亚洲日本在线看| 亚洲黄色性网站| 亚洲午夜精品一区二区三区他趣| 亚洲另类春色国产| 亚洲一区在线免费观看| 亚洲国产综合色| 亚洲成人在线免费| 日韩成人一级片| 久久99精品国产麻豆婷婷| 免费观看成人鲁鲁鲁鲁鲁视频| 日韩高清在线电影| 麻豆成人在线观看| 九色porny丨国产精品| 久久国产精品无码网站| 精品无人码麻豆乱码1区2区| 国产一区91精品张津瑜| 福利电影一区二区三区| 成人av免费网站| 欧美日韩精品伦理作品在线免费观看 | 婷婷丁香激情综合| 久久99精品久久久| 国产iv一区二区三区| 懂色av一区二区三区蜜臀| 99精品视频在线免费观看| 欧美成人久久| 99精品久久久| 久久久精彩视频| 欧美男人的天堂一二区| 日韩欧美国产精品| 中文字幕欧美日韩一区| 一区视频在线播放| 日韩中文欧美在线| 国产黄色成人av| 狠色狠色综合久久| 毛片一区二区| 欧美精品乱人伦久久久久久| 精品国产一区二区三区不卡| 中文乱码免费一区二区| 亚洲综合成人在线| 久久狠狠亚洲综合| 91麻豆福利精品推荐| 亚洲激情av| 欧美三级欧美一级| 欧美激情综合网| 亚洲一区二区综合| 国产成人综合亚洲91猫咪| 欧美高清一区| 色一情一乱一乱一91av| 精品人在线二区三区| 亚洲激情第一区| 国产精品一区二区男女羞羞无遮挡| 欧美日韩国产精品一卡| 久久久久久久久久码影片| 日韩一二三四区| 亚洲精品欧美二区三区中文字幕| 国内外成人在线| 国产精品v欧美精品v日本精品动漫| 久久经典综合| 久久综合色天天久久综合图片| 亚洲国产成人精品视频| 国产精品一区二区在线观看不卡| 亚洲国产二区|