復(fù)旦大學(xué)研究團(tuán)隊(duì)近期在人工智能訓(xùn)練領(lǐng)域取得重大突破,開(kāi)發(fā)出一套名為AgentGym-RL的創(chuàng)新訓(xùn)練框架。該框架通過(guò)模擬人類(lèi)漸進(jìn)式學(xué)習(xí)過(guò)程,成功讓僅含70億參數(shù)的小型AI模型在復(fù)雜任務(wù)中展現(xiàn)出超越千億參數(shù)商業(yè)模型的性能。這項(xiàng)成果已發(fā)表在arXiv平臺(tái),開(kāi)源代碼和數(shù)據(jù)集同步在GitHub公開(kāi)。
傳統(tǒng)AI訓(xùn)練存在顯著局限:多數(shù)系統(tǒng)只能處理單次交互的簡(jiǎn)單任務(wù),面對(duì)需要多步驟規(guī)劃的復(fù)雜場(chǎng)景時(shí)表現(xiàn)欠佳。研究團(tuán)隊(duì)形象地比喻,現(xiàn)有AI就像只會(huì)背書(shū)的學(xué)生,缺乏真正的理解和創(chuàng)新能力。在需要持續(xù)互動(dòng)的任務(wù)中,這些系統(tǒng)往往因訓(xùn)練不穩(wěn)定而崩潰,如同初學(xué)者同時(shí)學(xué)習(xí)駕駛和導(dǎo)航般手忙腳亂。
AgentGym-RL框架創(chuàng)造性地設(shè)計(jì)了五大訓(xùn)練環(huán)境,構(gòu)建起AI的"虛擬游樂(lè)園"。網(wǎng)頁(yè)導(dǎo)航環(huán)境模擬真實(shí)網(wǎng)站交互,要求AI完成購(gòu)物、論壇管理等任務(wù);深度搜索環(huán)境訓(xùn)練信息檢索能力,需整合多個(gè)信息源得出結(jié)論;數(shù)字游戲環(huán)境采用文本版Minecraft,考驗(yàn)策略規(guī)劃和資源管理;具身任務(wù)環(huán)境通過(guò)虛擬空間導(dǎo)航,測(cè)試空間推理能力;科學(xué)任務(wù)環(huán)境則專(zhuān)注實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析。
研究團(tuán)隊(duì)開(kāi)發(fā)的ScalingInter-RL訓(xùn)練方法堪稱(chēng)框架核心。該方法采用漸進(jìn)式策略,初期限制AI與環(huán)境的交互次數(shù),使其專(zhuān)注掌握基礎(chǔ)技能,如同教練先讓學(xué)員在空曠場(chǎng)地熟悉駕駛。隨著訓(xùn)練深入,逐步增加交互復(fù)雜度,鼓勵(lì)探索更高級(jí)策略。這種"先易后難"的模式有效解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)中的探索-利用平衡難題。
實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過(guò)AgentGym-RL訓(xùn)練的70億參數(shù)模型性能提升達(dá)33.65個(gè)百分點(diǎn)。在網(wǎng)頁(yè)導(dǎo)航任務(wù)中,該模型準(zhǔn)確率達(dá)26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務(wù)表現(xiàn)更為突出,取得38.25分的整體得分,接近頂級(jí)開(kāi)源模型DeepSeek-R1-0528的40.25分。在數(shù)字游戲最高難度級(jí)別,該模型是少數(shù)獲得非零分?jǐn)?shù)的系統(tǒng)之一。
研究團(tuán)隊(duì)發(fā)現(xiàn),增加測(cè)試時(shí)的計(jì)算資源能顯著提升模型表現(xiàn)。當(dāng)交互回合數(shù)從2次增加到30次時(shí),模型準(zhǔn)確率穩(wěn)步上升;并行采樣次數(shù)從1次增至64次,成功率提升最高達(dá)7.05個(gè)百分點(diǎn)。這表明,對(duì)于AI智能體而言,戰(zhàn)略性地投入更多計(jì)算資源進(jìn)行推理,比單純?cè)黾幽P蛥?shù)更有效。
算法比較實(shí)驗(yàn)揭示了訓(xùn)練方法的重要性。GRPO算法在多個(gè)任務(wù)中表現(xiàn)優(yōu)于REINFORCE++,使用GRPO訓(xùn)練的30億參數(shù)模型性能甚至超過(guò)使用REINFORCE++訓(xùn)練的70億參數(shù)模型。研究還發(fā)現(xiàn),訓(xùn)練初期嚴(yán)格限制交互次數(shù)能確保穩(wěn)定性,后期逐步放開(kāi)則有助于學(xué)習(xí)復(fù)雜策略,這種動(dòng)態(tài)調(diào)整策略取得了最佳效果。
案例分析生動(dòng)展示了訓(xùn)練成果。在網(wǎng)頁(yè)導(dǎo)航任務(wù)中,經(jīng)過(guò)強(qiáng)化學(xué)習(xí)的模型遇到"頁(yè)面未找到"錯(cuò)誤時(shí),會(huì)主動(dòng)回退到主頁(yè)使用搜索功能,而基礎(chǔ)模型則陷入無(wú)效點(diǎn)擊循環(huán)。具身導(dǎo)航任務(wù)中,訓(xùn)練后的模型能系統(tǒng)性探索環(huán)境,遇到阻礙時(shí)選擇替代路徑,基礎(chǔ)模型則常在已探索區(qū)域徘徊。
環(huán)境結(jié)構(gòu)對(duì)學(xué)習(xí)效果的影響研究帶來(lái)重要啟示。在規(guī)則明確的模擬環(huán)境中,如數(shù)字游戲和科學(xué)實(shí)驗(yàn),強(qiáng)化學(xué)習(xí)效果最為顯著,模型得分提升幅度接近50個(gè)百分點(diǎn)。而在更開(kāi)放的網(wǎng)頁(yè)導(dǎo)航和深度搜索環(huán)境中,提升幅度相對(duì)溫和。這表明訓(xùn)練初期應(yīng)優(yōu)先選擇結(jié)構(gòu)化環(huán)境,逐步引入復(fù)雜場(chǎng)景。
這項(xiàng)研究不僅在技術(shù)上取得突破,更體現(xiàn)了方法創(chuàng)新的重要性。通過(guò)漸進(jìn)式訓(xùn)練和多樣化環(huán)境設(shè)計(jì),小規(guī)模模型也能獲得強(qiáng)大能力。開(kāi)源框架的發(fā)布為全球研究者提供了研究基礎(chǔ),促進(jìn)了AI智能體技術(shù)的普及。研究顯示,中國(guó)在AI基礎(chǔ)研究領(lǐng)域的創(chuàng)新能力正不斷提升,為國(guó)際AI社區(qū)貢獻(xiàn)了新的智慧。
對(duì)技術(shù)細(xì)節(jié)感興趣的讀者可訪問(wèn)項(xiàng)目GitHub頁(yè)面獲取完整代碼和數(shù)據(jù)集,或查閱arXiv平臺(tái)上的完整論文(編號(hào):arXiv:2509.08755v1)。這項(xiàng)研究將推動(dòng)AI從簡(jiǎn)單問(wèn)答向真正理解復(fù)雜任務(wù)、制定長(zhǎng)期計(jì)劃的智能伙伴發(fā)展,在網(wǎng)頁(yè)操作、信息搜索、科學(xué)研究等領(lǐng)域展現(xiàn)廣闊應(yīng)用前景。
更多>同類(lèi)資訊Meta實(shí)驗(yàn)室新突破:AI模型開(kāi)啟"自我對(duì)弈"模式,不依賴(lài)數(shù)據(jù)也能持續(xù)進(jìn)化09-23聯(lián)發(fā)科天璣9500首推雙NPU架構(gòu),讓AI常駐手機(jī)開(kāi)啟主動(dòng)服務(wù)新體驗(yàn)09-23DeepSeek-V3.1升級(jí)至Terminus版 優(yōu)化語(yǔ)言一致性及Agent能力09-23斯坦福等高校聯(lián)手:用LMEnt套件追蹤AI語(yǔ)言模型知識(shí)學(xué)習(xí)軌跡09-23AI搜索的數(shù)學(xué)邊界:當(dāng)最強(qiáng)大模型遇上"簡(jiǎn)單問(wèn)題"的隱秘困局09-23中科院團(tuán)隊(duì)創(chuàng)新CARVE法:破解AI視覺(jué)“分心”難題,助模型精準(zhǔn)聚焦09-23Plaud攜三款A(yù)I紀(jì)要新品入局大陸市場(chǎng),多模態(tài)交互與長(zhǎng)續(xù)航成亮點(diǎn)09-23DeepSeek線上模型升級(jí)至V3.1-Terminus,輸出更穩(wěn)Agent能力再提升09-23DeepSeek-V3.1升級(jí)至V3.1-Terminus:語(yǔ)言更一致,代理更強(qiáng)大,輸出更穩(wěn)定09-23上海人工智能實(shí)驗(yàn)室牽頭!科學(xué)智能戰(zhàn)略科技力量聯(lián)盟正式成立09-23DeepSeek-V3.1-Terminus發(fā)布:修復(fù)Bug,編程與搜索智能體能力再升級(jí)09-23科學(xué)智能戰(zhàn)略科技力量聯(lián)盟成立 共探AI賦能多學(xué)科創(chuàng)新發(fā)展路徑09-23中國(guó)電信引領(lǐng)6G新突破:首個(gè)6G計(jì)費(fèi)項(xiàng)目獲3GPP正式批準(zhǔn)09-23DeepSeek-V3.1-Terminus更新登場(chǎng)!修復(fù)關(guān)鍵Bug,Agent能力躍升,V4還會(huì)遠(yuǎn)嗎?09-23百度智能云千帆開(kāi)源Qianfan-VL視覺(jué)模型,多尺寸適配,全自研芯片賦能高效計(jì)算09-23點(diǎn)擊查看更多 +全站最新
?9月狹義乘用車(chē)零售預(yù)計(jì)達(dá)215萬(wàn)輛,新能源車(chē)滲透率或超58%引關(guān)注?
6.88萬(wàn)起極狐T1實(shí)測(cè):空間越級(jí)配置足,小電車(chē)市場(chǎng)殺出“全能王”?
?雷軍官宣小米17系列9月25日發(fā)布,盧偉冰稱(chēng)產(chǎn)品力跨代升級(jí)且對(duì)標(biāo)iPhone17?
?小米17系列9月25日發(fā)布在即,雷軍年度演講《改變》將揭秘芯片與汽車(chē)故事?
?雷軍宣布:9月25日小米17系列發(fā)布,同期將舉辦第6次年度演講聊芯片與汽車(chē)故事?
小米SU7標(biāo)準(zhǔn)版11.7萬(wàn)輛召回:OTA升級(jí)背后的智能駕駛安全與行業(yè)新挑戰(zhàn)熱門(mén)內(nèi)容
第22屆東博會(huì)AI元素亮眼:數(shù)字智能體引路 機(jī)器人炫技展風(fēng)采
AI云競(jìng)爭(zhēng)下半場(chǎng):華為以超節(jié)點(diǎn)、企業(yè)Agent等破局,誰(shuí)能領(lǐng)跑產(chǎn)業(yè)?
2025網(wǎng)安周:每日互動(dòng)劉宇談AI時(shí)代,知識(shí)安全成關(guān)鍵,共筑數(shù)字新未來(lái)
中國(guó)大模型DeepSeek首登Nature封面,R1訓(xùn)練成本僅約208萬(wàn)引關(guān)注
華為全聯(lián)接大會(huì)2025啟幕,發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)與集群
有鹿機(jī)器人+連合直租:以智能租賃模式,開(kāi)啟高端場(chǎng)景清潔新未來(lái)
本文鏈接:http://www.rrqrq.com/showinfo-45-27964-0.html復(fù)旦大學(xué)AgentGym-RL框架:小模型大智慧,AI智能體學(xué)會(huì)復(fù)雜任務(wù)長(zhǎng)期規(guī)劃
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Orange Research DivMerge技術(shù):智能拼裝AI模型,解鎖多任務(wù)處理新境界
下一篇: Meta實(shí)驗(yàn)室新突破:AI模型開(kāi)啟"自我對(duì)弈"模式,不依賴(lài)數(shù)據(jù)也能持續(xù)進(jìn)化