蘋果公司在強化學習領域邁出了創新步伐,其研究人員最近提出了一種名為“基于清單反饋的強化學習”(RLCF)的新方法。這一方法旨在優化大語言模型(LLMs)處理復雜指令的能力,摒棄了傳統的人類點贊或點踩評分模式。
RLCF,全稱Reinforcement Learning from Checklist Feedback,它的核心在于為每個用戶指令生成詳細的檢查清單,并根據0到100分的評分系統對每一項進行評判。這一改變,使得模型在優化過程中能夠接收到更加具體和針對性的反饋,而非僅僅依賴于籠統的人類喜好。

為了驗證RLCF方法的有效性,研究團隊在強指令跟隨模型Qwen2.5-7B-Instruct上進行了測試,測試涵蓋了五個常用的評測基準。結果顯示,RLCF在所有測試中均取得了顯著提升:FollowBench的硬性滿意率提高了4個百分點,InFoBench提升了6點,Arena-Hard的勝率增加了3點,部分任務的最大提升甚至達到了8.2%。這些數據無疑證明了清單反饋在應對復雜、多步驟任務時的強大效果。
在清單的生成方面,蘋果的研究團隊也展現出了獨到的見解。他們利用規模更大的Qwen2.5-72B-Instruct模型,結合現有的研究方法,為13萬條指令創建了名為“WildChecklists”的數據集。這些數據集中的清單條目都是明確的二元判斷項,例如“是否準確翻譯為目標語言”。隨后,大模型會對候選回答進行逐項評分,并將這些評分綜合加權,作為小模型訓練的獎勵信號。
然而,蘋果研究者也坦誠地指出了RLCF方法的局限性。首先,它依賴于性能更強的模型作為評判者,這在資源受限的環境下可能難以實現。其次,RLCF專注于提升復雜指令的執行能力,并未專門設計用于安全性對齊,因此不能替代安全性評估與優化。對于其他類型的任務,該方法的適用性仍需進一步的研究和驗證。

釘釘十周年:AI釘釘1.0及首款硬件產品DingTalk A1重磅發布單看概念或許有點抽象,其實不難理解,在發布會現場,無招就用“奏折”來做比喻,AI釘釘就像是用戶的專屬秘書,將一切與工作相關的信息與任務進行分析和整理,然后根據重要性排序,最終像信息流一樣呈現在用戶的面前。 …08-26科大訊飛融資凈買入超7千萬,近三日融資買入額持續高企8月25日,滬深兩融數據顯示,科大訊飛獲融資買入額6.80億元,居兩市第42位,當日融資償還額6.07億元,凈買入7378.21萬元。 最近三個交易日,21日-25日,科大訊飛分別獲融資買入6.33億元、7.…08-26科大訊飛半年報:AI紅利助業務高增長,實控人定增彰顯信心AI紅利驅動各業務線健康成長 1)智慧教育業務25H1收入35.3億元,同比+23.5%,其中AI學習機上半年收入繼續保持翻番增長。4)企業AI解決方案25H1收入4.4億元,同比+349.9%,公司正在加…08-26AI招聘工具信任危機:超六成科技人才擔憂,呼吁人性化透明招聘08-26阿里國際Ovis2.5多模態大模型發布,提升視覺感知與深度推理能力08-26AI貓咪短片風靡社交媒體,奇幻劇情吸引數億播放成新寵08-26
算力新紀元:太原市算力產業邁向規模化高端化融合化新征程作為全國首個全棧自主可控的煤炭行業智能算力中心,該平臺建成包含盤古、文心、DeepSeek等大模型拼盤,完成了從技術可行到工程可靠、再到商業閉環的全鏈條驗證,為各類開發需求提供了強有力的算力支撐。山西數據流量…08-26
高途武漢新設智成科技公司,涉足AI軟件開發領域08-26英偉達發布新一代機器人計算機Jetson Thor,售價2.5萬,宇樹優必選等已采用08-26馬斯克xAI正式起訴蘋果與OpenAI,指控雙方聯手壟斷AI市場08-26庫克掌舵蘋果14載:從喬布斯離職到新品線開創的平穩發展之路08-26英偉達H20芯片陷安全風波,中國廠商停采,導致生產線暫停08-26
移動云智算平臺攜手DeepSeek,共促AI大模型應用高效落地在DeepSeek上線后,移動云快速完成全面接入,并針對DeepSeek-R1模型打造了定制算力方案,旨在以全面、強大的智算服務,滿足用戶部署、應用DeepSeek時的多樣化需求。以移動云智算一體機服務為例,…08-26
中國移動算網大腦3.0:智能算力新紀元,賦能千行百業簡單說,它就是算力網絡的 “超級智能管家”。 向上能服好務:把復雜的算力調度變成“一句話的事”,用戶不用懂技術,說清需求就能拿到方案,比如要搭個工廠 AI 質檢系統,它會自動配齊存儲、計算、安全資源。看這三…08-26
AI編程新潮流:卡帕西揭秘四層工具鏈,Cursor主打,GPT-5收尾這是因為,當下,開發者無法基于單一編程工具滿足所有開發需求,且這些工具擅長的點各有不同,包括Cursor編輯器善于自動補全代碼,但需頻繁重啟;獨立AI編程工具可以針對開發者不了解內容編程,但需要定期清理代碼…08-26點擊查看更多 +全站最新
羅永浩澄清微博熱搜:拉黑的是起哄網友,非俞敏洪王自如
釘釘十周年:AI釘釘1.0及首款硬件產品DingTalk A1重磅發布
英偉達發布機器人“最強芯”Jetson Thor,業界領袖盛贊性能飛躍
嘎子直播賣酷派“新機”翻車,反詐老陳打假引熱議,真相竟是4年前老款?
真我新機曝光:15000mAh超大電池,續航超50小時,你會買單嗎?
索尼電影機FX3系列迎來重大固件升級,多項新功能提升拍攝效率熱門內容
釘釘十周年:AI釘釘1.0及首款硬件產品DingTalk A1重磅發布
算力新紀元:太原市算力產業邁向規模化高端化融合化新征程
高途武漢新設智成科技公司,涉足AI軟件開發領域
移動云智算平臺攜手DeepSeek,共促AI大模型應用高效落地
中國移動算網大腦3.0:智能算力新紀元,賦能千行百業
AI編程新潮流:卡帕西揭秘四層工具鏈,Cursor主打,GPT-5收尾
本文鏈接:http://www.rrqrq.com/showinfo-45-26935-0.html蘋果推出RLCF技術:以大模型為導師,強化小模型復雜指令執行能力
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com