當(dāng)前位置：首頁 > 元宇宙 > AI

阿里通義開源網(wǎng)絡(luò)智能體 WebSailor，登頂開源網(wǎng)絡(luò)智能體榜單

來源：責(zé)編：時(shí)間：2025-07-09 12:03:31 99觀看

導(dǎo)讀 7 月 7 日消息，今日阿里云宣布，通義正式開源網(wǎng)絡(luò)智能體 WebSailor，該智能體具備強(qiáng)大的推理和檢索能力，發(fā)布后在智能體評測集 BrowseComp 上登頂開源網(wǎng)絡(luò)智能體榜單。注意到，目前 WebSailor 的構(gòu)建方案及部分?jǐn)?shù)據(jù)集

7 月 7 日消息，今日阿里云宣布，通義正式開源網(wǎng)絡(luò)智能體 WebSailor，該智能體具備強(qiáng)大的推理和檢索能力，發(fā)布后在智能體評測集 BrowseComp 上登頂開源網(wǎng)絡(luò)智能體榜單。注意到，目前 WebSailor 的構(gòu)建方案及部分?jǐn)?shù)據(jù)集已在 Github 開源。

據(jù)阿里云介紹，WebSailor 網(wǎng)絡(luò)智能體可以應(yīng)用復(fù)雜場景下的檢索任務(wù)，對于模糊問題可迅速在不同的網(wǎng)頁中進(jìn)行快速檢索并推理驗(yàn)證，從而在海量信息中通過嚴(yán)密的多步推理和交叉驗(yàn)證最終得出檢索答案。

同時(shí)，針對該智能體的訓(xùn)練，通義實(shí)驗(yàn)室團(tuán)隊(duì)采用了整套創(chuàng)新的 post-training 方法，大幅提升了該開源模型在復(fù)雜網(wǎng)頁推理任務(wù)上的表現(xiàn)，在高難度智能體評測集 BrowseComp 上，WebSailor 的成績超越了 DeepSeek R1、Grok-3 等模型和智能體，一舉登頂開源網(wǎng)絡(luò)智能體榜單。

開源地址：

https://github.com/Alibaba-NLP/WebAgent

為了驗(yàn)證 WebSailor 的實(shí)驗(yàn)效果，通義實(shí)驗(yàn)室在多個(gè) benchmark 評測集上進(jìn)行實(shí)測。

BrowseComp 是 Open AI 開源的瀏覽器檢索效果評測集，旨在評測大模型和智能體的檢索性能，發(fā)布數(shù)月以來，該評測集包含了 1266 個(gè)高難度問題，是目前難度最高的評測集之一，業(yè)界尚無開源系統(tǒng)取得接近閉源模型的成績。

英文版和中文版 BrowseComp 評測集的實(shí)測結(jié)果顯示，WebSailor 跨越了開源和閉源系統(tǒng)之間的鴻溝，WebSailor-32B、WebSailor-72B 不僅在開源模型和 Agent 陣營里實(shí)現(xiàn)了斷層領(lǐng)先，甚至超越了 DeepSeek R1、Grok-3 等閉源模型（注：官方原話，DeepSeek R1 應(yīng)為開源模型），僅次于閉源的 OpenAI DeepResearch。

盡管 WebSailor 僅基于高難度數(shù)據(jù)訓(xùn)練，但在聚焦普通任務(wù) SimpleQA 的數(shù)據(jù)集上，WebSailor 的表現(xiàn)也超越了其它方法，展現(xiàn)出極強(qiáng)的兼容性和有效性，驗(yàn)證了 WebSailor 方法的泛化能力。

阿里云稱，WebSailor 提供了一個(gè)通用的 workflow，可借鑒到其他領(lǐng)域的問題中。它強(qiáng)調(diào)的“高難度任務(wù)合成 + 小規(guī)模冷啟動 + 高效 RL 優(yōu)化”的組合拳策略，具有很強(qiáng)的普適性。未來，開源社區(qū)可以參考 WebSailor 的思路，去攻克更多類似“超越人類能力”的任務(wù) —— 比如開放領(lǐng)域的復(fù)雜推理問答、學(xué)術(shù)知識發(fā)現(xiàn)，甚至跨模態(tài)的信息整合等。

本文鏈接：http://www.rrqrq.com/showinfo-45-14447-0.html阿里通義開源網(wǎng)絡(luò)智能體 WebSailor，登頂開源網(wǎng)絡(luò)智能體榜單

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： AI熱潮下，英偉達(dá)與微軟誰將率先突破4萬億美元市值大關(guān)？

下一篇：中興通訊 AiCube 智算一體機(jī)在文心 4.5 開源當(dāng)天同步實(shí)現(xiàn)全系列模型適配

標(biāo)簽：

熱門焦點(diǎn)

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時(shí)間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
沉寂3年，大模型激活小度天貓精靈？

Tech星球（微信ID：tech618）文 | 何煦陽沉寂了許久的智能音箱，在今年大模型橫空出世之后，又再次燃起了新的希望。 2月9日，小度宣布將融合文心一言，打造針對智能設(shè)備場景的AI模型&ldq
區(qū)塊鏈產(chǎn)業(yè)人才發(fā)展報(bào)告

工業(yè)和信息化部作為工業(yè)和信息化行業(yè)主管部門，正在著力推進(jìn)“兩個(gè)強(qiáng)國”建設(shè)，加快推動以區(qū)塊鏈為代表的新興技術(shù)與實(shí)體經(jīng)濟(jì)深度融合。我國區(qū)塊鏈技術(shù)和應(yīng)用想要
“我沒搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個(gè)月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調(diào)進(jìn)軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業(yè)務(wù)。剎那之間，元宇宙成為新風(fēng)口，除了
元宇宙風(fēng)歸何處？

元宇宙持續(xù)大火，在過去一段時(shí)間內(nèi)，其屢次登上熱點(diǎn)，吸引了一波又一波投資者。近期，在“2022中國·金魚嘴元宇宙生態(tài)賦能大會”上，南京建鄴區(qū)金魚嘴基金街區(qū)宣布計(jì)劃
從4個(gè)方面解析2022年加密行業(yè)趨勢

作者：去月球基礎(chǔ)設(shè)施瓶頸仍然存在盡管2021年公鏈基礎(chǔ)設(shè)施之間的競爭顯著升溫，但關(guān)鍵瓶頸仍需解決。例如，以太坊作為DApp開發(fā)的頂級公鏈，仍然遭受網(wǎng)絡(luò)擁塞和高額交
融資千萬美元的元宇宙平臺UGC到底是什么？

據(jù)獲悉，全球化元宇宙社交平臺BUD Technologies, Inc.（以下簡稱“BUD”）宣布完成1500萬美元A+輪融資，本輪融資由啟明創(chuàng)投領(lǐng)投，老股東源碼資本、GGV紀(jì)源資本、云九資
從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

去年8月9日，騰訊音樂布局NFT數(shù)字收藏，在騰訊應(yīng)用寶發(fā)布幻核app，騰訊音樂的提前布局示意著未來區(qū)塊鏈技術(shù)將對數(shù)字音樂版權(quán)市場進(jìn)行改造升級。作者從深層測分析為
淺聊DAO圖景和未來

DAO是什么？DAO (Decentralized Autonomous Organizations),去中心化自治組織，是基于區(qū)塊鏈技術(shù)，由社區(qū)通過透明的決策過程運(yùn)行和管理的組織形態(tài)。DAO使得社區(qū)成為

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

阿里通義開源網(wǎng)絡(luò)智能體 WebSailor，登頂開源網(wǎng)絡(luò)智能體榜單

拯救XR，蘋果力不從心

沉寂3年，大模型激活小度天貓精靈？

區(qū)塊鏈產(chǎn)業(yè)人才發(fā)展報(bào)告

“我沒搞懂元宇宙，但一天能賺9w塊”

元宇宙風(fēng)歸何處？

從4個(gè)方面解析2022年加密行業(yè)趨勢

融資千萬美元的元宇宙平臺UGC到底是什么？

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

淺聊DAO圖景和未來

最新推薦

數(shù)字虛擬人23年最新變化！

藍(lán)標(biāo)虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

字節(jié)覓《原神》，騰訊元宇宙，游戲新王戰(zhàn)舊神？

好萊塢：一股新的電影制作加密浪潮將顛覆這個(gè)行業(yè)

2030年的元宇宙產(chǎn)業(yè)將會如何發(fā)展？

量子計(jì)算在未來能否提高區(qū)塊鏈技術(shù)的效率

猜你喜歡

熱門推薦

相關(guān)資訊