7 月 7 日消息,今日阿里云宣布,通義正式開源網(wǎng)絡(luò)智能體 WebSailor,該智能體具備強(qiáng)大的推理和檢索能力,發(fā)布后在智能體評測集 BrowseComp 上登頂開源網(wǎng)絡(luò)智能體榜單。注意到,目前 WebSailor 的構(gòu)建方案及部分?jǐn)?shù)據(jù)集已在 Github 開源。

據(jù)阿里云介紹,WebSailor 網(wǎng)絡(luò)智能體可以應(yīng)用復(fù)雜場景下的檢索任務(wù),對于模糊問題可迅速在不同的網(wǎng)頁中進(jìn)行快速檢索并推理驗(yàn)證,從而在海量信息中通過嚴(yán)密的多步推理和交叉驗(yàn)證最終得出檢索答案。
同時(shí),針對該智能體的訓(xùn)練,通義實(shí)驗(yàn)室團(tuán)隊(duì)采用了整套創(chuàng)新的 post-training 方法,大幅提升了該開源模型在復(fù)雜網(wǎng)頁推理任務(wù)上的表現(xiàn),在高難度智能體評測集 BrowseComp 上,WebSailor 的成績超越了 DeepSeek R1、Grok-3 等模型和智能體,一舉登頂開源網(wǎng)絡(luò)智能體榜單。
開源地址:
https://github.com/Alibaba-NLP/WebAgent
為了驗(yàn)證 WebSailor 的實(shí)驗(yàn)效果,通義實(shí)驗(yàn)室在多個(gè) benchmark 評測集上進(jìn)行實(shí)測。
BrowseComp 是 Open AI 開源的瀏覽器檢索效果評測集,旨在評測大模型和智能體的檢索性能,發(fā)布數(shù)月以來,該評測集包含了 1266 個(gè)高難度問題,是目前難度最高的評測集之一,業(yè)界尚無開源系統(tǒng)取得接近閉源模型的成績。

英文版和中文版 BrowseComp 評測集的實(shí)測結(jié)果顯示,WebSailor 跨越了開源和閉源系統(tǒng)之間的鴻溝,WebSailor-32B、WebSailor-72B 不僅在開源模型和 Agent 陣營里實(shí)現(xiàn)了斷層領(lǐng)先,甚至超越了 DeepSeek R1、Grok-3 等閉源模型(注:官方原話,DeepSeek R1 應(yīng)為開源模型),僅次于閉源的 OpenAI DeepResearch。

盡管 WebSailor 僅基于高難度數(shù)據(jù)訓(xùn)練,但在聚焦普通任務(wù) SimpleQA 的數(shù)據(jù)集上,WebSailor 的表現(xiàn)也超越了其它方法,展現(xiàn)出極強(qiáng)的兼容性和有效性,驗(yàn)證了 WebSailor 方法的泛化能力。
阿里云稱,WebSailor 提供了一個(gè)通用的 workflow,可借鑒到其他領(lǐng)域的問題中。它強(qiáng)調(diào)的“高難度任務(wù)合成 + 小規(guī)模冷啟動 + 高效 RL 優(yōu)化”的組合拳策略,具有很強(qiáng)的普適性。未來,開源社區(qū)可以參考 WebSailor 的思路,去攻克更多類似“超越人類能力”的任務(wù) —— 比如開放領(lǐng)域的復(fù)雜推理問答、學(xué)術(shù)知識發(fā)現(xiàn),甚至跨模態(tài)的信息整合等。
本文鏈接:http://www.rrqrq.com/showinfo-45-14447-0.html阿里通義開源網(wǎng)絡(luò)智能體 WebSailor,登頂開源網(wǎng)絡(luò)智能體榜單
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: AI熱潮下,英偉達(dá)與微軟誰將率先突破4萬億美元市值大關(guān)?
下一篇: 中興通訊 AiCube 智算一體機(jī)在文心 4.5 開源當(dāng)天同步實(shí)現(xiàn)全系列模型適配