6 月 16 日消息,近日,人工智能公司 Anthropic 披露其王牌產品 Claude 的一項重大升級:通過構建一個由多個 AI 智能體組成的“研究團隊”,其在復雜研究任務上的表現較單智能體系統實現了 90.2% 的驚人提升。這標志著 AI 正從“單兵作戰”邁向“協同智能”的新階段。
這項名為“Research”(研究)的新功能,其核心是一個多智能體系統。在該架構下,一個“主導智能體”扮演項目經理的角色,負責規劃和拆解任務,隨后并行創建多個“子智能體”分頭執行信息檢索與分析。這種模式模仿了人類專家團隊的高效協作,通過并行處理和關注點分離,有效攻克了傳統 AI 難以勝任的開放性難題。
本文由 Anthropic 核心開發團隊撰寫,深入剖析了這一前沿系統的構建全貌。
以下是全文翻譯:
【多智能體研究系統的構建歷程】
我們的 Research 功能采用多個 Claude 智能體,協同探索復雜主題,以提升研究效果。本文將分享在該系統開發過程中遇到的工程挑戰,以及我們總結的經驗教訓。
Claude 現已具備“Research”(研究)能力,能夠跨互聯網、Google Workspace 及各類集成工具檢索信息,從而完成復雜任務。
這一多智能體系統(multi-agent system)從原型到正式上線的過程,讓我們在系統架構、工具設計和提示詞工程(prompt engineering)等方面積累了重要經驗。多智能體系統由多個智能體(即 LLMs 在循環中自主調用工具)協作完成任務。我們的 Research 功能包含一個智能體,根據用戶查詢規劃調研流程,并利用工具并行創建多個子智能體,協同檢索信息。多智能體系統在智能體協同、評測與可靠性等方面帶來了全新挑戰。
本文將詳細解析我們總結出的有效原則,希望能為你自行構建多智能體系統提供參考。
多智能體系統的優勢
研究工作本身充滿開放性,難以預先確定所需步驟。你無法為探索復雜主題預設一條固定路徑,因為整個過程本質上充滿變數且路徑依賴明顯。在實際調研中,人們會根據新的發現不斷調整方法,跟隨線索進一步深入。
這種不可預測性恰恰讓 AI 智能體非常適合承擔研究類任務。研究需要在調查過程中靈活轉向,探索相關或邊緣線索。模型必須能夠在多輪自主管理下,根據中間結果動態決策進一步探索方向。線性、一次性流程無法勝任這一需求。
搜索的本質在于“壓縮”—— 即從龐大語料中提煉洞見。子智能體通過各自獨立的上下文窗口并行運行,同時探索問題的不同方面,隨后將最重要的信息壓縮匯總給主導智能體。這種機制還實現了關注點分離 —— 不同的工具、提示詞和探索路徑彼此獨立,既降低了路徑依賴,又保證了調研的全面性和獨立性。
一旦智能體能力達到一定門檻,多智能體系統就成為擴展性能的關鍵方式。例如,盡管人類個體在過去十萬年間變得更為聰明,但進入信息時代后,人類社會之所以指數級提升能力,正是因為集體智慧和高效協作。同樣,即使是具備通用智能的單體智能體,其能力也有上限;而智能體群體協同作業則遠遠超越個體能力。
我們的內部評測顯示,多智能體研究系統尤其擅長“廣度優先型”查詢,能夠同時追蹤多個獨立方向。我們發現,以 Claude Opus 4 作為主導智能體、Claude Sonnet 4 作為子智能體的多智能體系統,在內部研究評測中較單智能體 Claude Opus 4 提升了 90.2%。例如,當系統被要求列舉信息技術 S&P 500 指數成分企業全部董事會成員時,多智能體系統能夠將任務拆解分配給各子智能體,從而找到正確答案,而單智能體系統因采用緩慢、串行的檢索流程,未能給出答案。
多智能體系統之所以有效,主要在于它們能投入足夠多的 tokens 來解決問題。我們的分析顯示,在 BrowseComp 評測(用于測試智能體檢索難以獲取信息的能力)中,有三項因素解釋了 95% 的性能差異。其中,token 使用量單獨就能解釋 80% 的差異,工具調用次數和模型選擇則是另外兩個主要影響因素。這一結果印證了我們的架構思路:通過不同上下文窗口分配任務,實現并行推理,提升系統容量。最新的 Claude 模型也極大提升了 token 使用效率,例如,升級至 Claude Sonnet 4 帶來的性能提升,甚至超過在 Claude Sonnet 3.7 上將 token 配額翻倍。多智能體架構能有效擴展 token 使用,適配超出單一智能體處理能力的任務。
但這也帶來了問題:在實際應用中,該架構 token 消耗極快。數據顯示,單一智能體通常比聊天場景多用約 4 倍 tokens,多智能體系統則比聊天多用約 15 倍。要實現經濟可行性,多智能體系統需專注于任務價值足以覆蓋高性能消耗的應用場景。此外,部分領域要求所有智能體共享完全一致的上下文,或智能體間依賴關系極多,這類任務目前并不適合多智能體系統。例如,大多數編程任務真正可并行化的環節不如研究型任務多,且現階段 LLM 智能體尚不擅長實時協調和分工。我們發現,多智能體系統在高并行度、信息量超出單一上下文窗口、需對接大量復雜工具的任務中表現最為突出。
Research 系統架構概覽
我們的 Research(研究)系統采用多智能體架構,具體為“協調者-執行者”模式。主導智能體負責整體流程的協調,并將任務分派給并行運行的專業子智能體。

圖/多智能體架構實操示意: 用戶的查詢首先進入主導智能體,由其創建多個專業子智能體,分別并行檢索不同方面的信息。
當用戶提交查詢后,主導智能體會對查詢進行分析,制定策略,并同時生成多個子智能體,分別探索不同方面。如上文所示,子智能體通過反復調用檢索工具,充當智能過濾器。例如,在檢索 2025 年 AI 智能體公司時,子智能體會收集相關信息,并將公司名單返回主導智能體,由其匯總形成最終答案。
傳統的檢索增強生成(Retrieval Augmented Generation,RAG)方法采用的是靜態檢索:即根據輸入查詢檢索出最相似的信息片段,并用這些片段生成回復。相比之下,我們的架構采用多步搜索,能夠動態發現相關信息,及時調整策略,并對結果進行分析,從而給出高質量答案。

圖/流程圖展示了我們多智能體 Research 系統的完整工作流程。當用戶提交查詢后,系統會創建一個 LeadResearcher(主研究者)智能體,進入迭代式研究流程。LeadResearcher 首先思考研究路徑,并將研究計劃保存至 Memory(記憶)以保證上下文持久存儲。因為一旦上下文窗口超過 200,000 tokens,超出部分將被截斷,因此計劃的保存尤為關鍵。隨后,LeadResearcher 會根據不同研究任務創建專業化的 Subagent(子智能體)(此處僅示例兩個,實際可為任意數量)。每個子智能體獨立進行網絡檢索,通過穿插思考(interleaved thinking)評估工具結果,并將發現返回至 LeadResearcher。LeadResearcher 對這些結果進行綜合判斷,如需進一步研究,可繼續創建新的子智能體或優化研究策略。當信息收集充分后,系統將退出研究循環,并將所有研究結果交由 CitationAgent(引文智能體)處理。CitationAgent 會對文檔和研究報告進行分析,標注具體引用位置,確保所有論斷均有明確信息源支撐。最終,帶有完整引文的研究結果返回給用戶。
研究智能體的提示詞工程與評估
多智能體系統與單智能體系統有本質區別,尤其在協調復雜度上增長迅速。早期的智能體經常犯錯,比如為簡單查詢生成 50 個子智能體,無休止地全網搜索并不存在的信息源,或因頻繁更新而彼此干擾。由于每個智能體都由提示詞驅動,因此提示詞工程成為我們優化行為的主要手段。以下是我們在智能體提示詞設計中的一些經驗原則:
站在智能體的角度思考。 要持續優化提示詞,必須理解其實際效果。為此,我們在 Console 中用系統實際用到的提示詞和工具構建了模擬,逐步觀察智能體的行為。這很快揭示了常見失敗模式:如明明已獲得足夠結果卻繼續執行,搜索指令冗長繁復,或工具選擇錯誤。有效的提示詞設計需要建立對智能體工作的準確心智模型,這樣關鍵的改進點會變得一目了然。
指導協調者如何分工。 我們的系統中,主導智能體需要將查詢拆分為具體子任務,并清晰地描述給子智能體。每個子智能體都需明確目標、輸出格式、應使用的工具和信息源,以及清晰的任務邊界。如果任務描述不夠詳盡,智能體之間容易重復勞動、出現遺漏,或找不到必要信息。我們最初允許主導智能體給出簡短指令,例如“調研半導體短缺”,但發現這樣的指令往往太過模糊,導致子智能體誤解任務,甚至重復執行同一檢索。例如,一個子智能體調查了 2021 年汽車芯片危機,另外兩個則重復研究 2025 年供應鏈,卻缺乏有效分工。
根據查詢復雜度動態分配資源。 智能體難以自行判斷不同任務應投入多少精力,因此我們在提示詞中嵌入了分級規則。簡單的事實檢索只需 1 個智能體、3-10 次工具調用;直接比較可能需要 2-4 個子智能體,每個調用 10-15 次工具;復雜研究則可能用到 10 個以上子智能體,并有明確分工。這些明確的指導方針幫助主導智能體高效分配資源,避免在簡單查詢上投入過多,這是早期版本的常見問題。
工具的設計與選擇至關重要。 智能體-工具接口和人機接口同樣關鍵。選對工具不僅高效,很多時候更是完成任務的必要條件。例如,若智能體在網上搜索一條只存在于 Slack 的信息,必然無果。MCP 服務器為模型接入各種外部工具,但工具描述質量參差不齊,這一挑戰更為突出。我們為智能體制定了明確的啟發式規則:如先檢查所有可用工具,將工具使用與用戶意圖相匹配,廣泛探索時優先用網絡搜索,專業任務優選專用工具而非通用工具。不恰當的工具描述可能導致智能體完全走錯方向,因此每個工具都需有明確的功能和清晰的描述。
讓智能體自我改進。 我們發現 Claude 4 模型本身就是出色的提示詞工程師。當給定失敗案例和原始提示詞時,它能診斷智能體失敗原因并提出改進建議。我們甚至開發了專門的工具測試智能體:當遇到描述不佳的 MCP 工具,它會試用該工具,并重寫工具描述以避免失敗。通過反復測試,這一智能體發現了諸多細節和漏洞。改進工具易用性的流程,使得未來智能體在使用新描述時,任務完成時間縮短了 40%,因為大多數錯誤被有效規避。
先廣后深。 搜索策略應當類似人類專家:先全面了解,再聚焦細節。智能體往往傾向于一開始就用冗長且具體的查詢,結果反而收效甚微。我們通過提示詞引導智能體先用簡短、寬泛的檢索語句,評估可用信息后再逐步聚焦。
引導思考過程。 擴展思考模式(extended thinking mode)可讓 Claude 在輸出時展示可見的思考過程,作為可控的草稿板。主導智能體借助思考環節規劃行動,評估任務所需工具、查詢復雜度及子智能體數量,并明確各自職責。測試表明,這一模式能提升指令執行力、推理能力和效率。子智能體同樣先制定計劃,獲取工具結果后再穿插思考,評估信息質量、發現遺漏并優化后續檢索。這讓子智能體能夠更好地適應各種任務。
并行工具調用極大提升速度和表現。 復雜調研任務往往涉及多信息源的同步探索。早期智能體采用串行搜索,效率極低。為提升速度,我們引入了兩種并行機制:(1) 主導智能體能并行生成 3-5 個子智能體,而非順序創建;(2) 子智能體能并行調用 3 個以上工具。這些優化使復雜查詢的研究時間最多縮短 90%,讓 Research 系統能在幾分鐘內完成本需數小時的任務,且覆蓋信息量遠超其他系統。
我們的提示詞策略注重培育良好的啟發式,而不是僵化規則。 我們研究了熟練人類研究者的工作方式,并在提示詞中融入這些策略 —— 如將難題拆解為小任務、細致評估信息源質量、根據新發現靈活調整檢索方式、區分何時需深挖單一主題、何時需廣泛并行探索。我們還通過設定明確的安全邊界,主動規避智能體行為失控等副作用。最后,我們專注于構建可觀測、可測試的快速迭代流程。
智能體的有效評估
良好的評估對于構建可靠的 AI 應用至關重要,智能體系統同樣如此。然而,多智能體系統的評估面臨獨特挑戰。傳統評估通常假設 AI 每次都遵循相同步驟:輸入 X,系統應按照路徑 Y 產生輸出 Z。但多智能體系統并非如此。即使初始條件完全相同,智能體也可能通過完全不同但同樣有效的路徑達成目標。有的智能體可能檢索三種信息源,有的則檢索十種,或采用不同工具得出相同答案。由于我們往往無法預知“正確”的具體步驟,因此也就無法簡單核查智能體是否嚴格按預設流程執行。我們需要靈活的評估方法,既判斷智能體是否達成預期結果,也關注其過程是否合理。
從小樣本立刻開始評估。 在智能體開發早期,細微的改動往往帶來顯著影響,因為此時存在大量“低垂的果實”。一次提示詞微調,成功率可能由 30% 提升至 80%。如此大的效果差異,只需少量測試用例即可觀察到變化。我們最初用約 20 條代表真實使用場景的查詢進行測試。這些測試經常能清楚反映改動的成效。我們常聽說 AI 開發團隊因認為只有包含數百個用例的大型評測才有意義而延遲開展評估。實際上,最佳做法是從少量樣例的小規模測試立即著手,而不是等到有能力構建更全面評測時再開始。
以大語言模型(LLM)為判官的評估方法具有可擴展性。 研究型輸出很難用程序化手段評估,因為其多為自由文本,且鮮有唯一正確答案。LLM 非常適合用于結果評分。我們使用 LLM 判官(LLM-as-judge),基于評分細則對每個輸出進行評估,包括事實準確性(結論是否與信息源一致)、引用準確性(所引信息源是否與陳述相符)、全面性(是否覆蓋所有要求的方面)、信息源質量(是否優先使用高質量的一手來源而非低質量的二手來源)、工具效率(是否合理選擇并調用工具)。我們曾嘗試用多個判官評估不同維度,但最終發現,單次 LLM 調用、以單一提示詞輸出 0.0-1.0 分數并給出通過 / 未通過判定,效果最為一致且與人工判斷高度吻合。這種方法在測試用例答案明確時尤其有效,LLM 判官只需判斷答案是否正確(例如是否準確列出研發投入最高的三家制藥公司)。利用 LLM 判官,我們可以大規模評估數百個輸出。
人工評估能發現自動化遺漏的問題。 人工測試智能體時,常能發現評測遺漏的邊緣案例,如在特殊查詢下出現幻覺答案、系統性故障,或信息源選擇中的細微偏差。以我們的經驗為例,測試人員發現早期智能體經常偏好 SEO 優化內容農場,而忽視了權威但排名較低的信息源,如學術 PDF 或個人博客。為此,我們在提示詞中加入信息源質量的啟發式規則,有效改善了這一問題。即便自動化評估日趨完善,人工測試依然不可或缺。
多智能體系統會出現“涌現行為”,即未經過明確編程而自然產生的新模式。 例如,對主導智能體的微小調整,可能以不可預測的方式改變子智能體行為。要取得成功,必須理解智能體之間的互動模式,而不僅僅是個體行為。因此,最佳提示詞不僅僅是嚴格的指令,更應是協作框架,明確分工、解決問題的方法及資源投入的上限。要做到這一點,需要精心的提示詞設計與工具配置、扎實的啟發式規則、良好的可觀測性以及高效反饋循環。具體可參考我們 Cookbook 中開源的系統提示詞示例。
生產環境下的可靠性與工程挑戰
在傳統軟件中,漏洞可能導致功能失效、性能下降或服務中斷。而在智能體系統中,微小的改動可能引發大范圍的行為變化,使得持續運行、需保持狀態的復雜智能體代碼極難維護。
智能體具備狀態,且錯誤會累積。 智能體往往需要長時間運行,期間跨越多次工具調用并持續維護自身狀態。這要求我們的系統必須具備持久化執行能力,并能妥善處理運行過程中的各類錯誤。若缺乏有效應對機制,哪怕極小的系統故障也可能對智能體造成災難性影響。出錯時,系統無法簡單地從頭重啟 —— 重啟代價高昂且令用戶沮喪。因此,我們設計了可在出錯點恢復的系統。同時,借助模型智能優雅處理異常問題,例如在工具失效時向智能體發出提示,讓其主動調整,這一策略效果出奇地好。我們將基于 Claude 的 AI 智能體適應能力,與如重試邏輯、定期檢查點等確定性防護措施相結合。
調試需采用新方法。 智能體的決策過程高度動態,即便提示詞完全一致,不同運行結果也可能不同,給調試帶來極大難度。例如,用戶報告智能體“未能找到顯而易見的信息”,但我們無法直接看出原因 —— 是檢索指令設置不佳,還是信息源選擇錯誤,亦或工具本身出錯?我們通過引入全量生產追蹤,系統性定位智能體失敗原因并加以修復。除常規可觀測性外,我們還監控智能體的決策模式與互動結構,但不監控具體對話內容,以保障用戶隱私。這種高層級可觀測性有助于發現根本原因、意外行為及常見故障。
部署需精心協調。 智能體系統由提示詞、工具和執行邏輯組成,具備高度狀態性,且幾乎持續運行。因此,系統每次更新時,智能體可能正處于任意執行階段。我們必須防止善意的代碼更新破壞現有智能體的運行。無法讓所有智能體同時切換至新版本,因此采用“彩虹部署”(rainbow deployments),即逐步將流量從舊版本切換到新版本,確保兩者并行運行,避免對現有智能體造成干擾。
同步執行會造成瓶頸。 目前,主導智能體按同步方式執行子智能體,即需等待一批子智能-體全部完成后才能繼續。這雖簡化了協調,但也造成智能體之間信息流的瓶頸。例如,主導智能體無法動態引導子智能體,子智能體之間無法協作,整個系統可能因等待某個子智能體完成檢索而被阻塞。異步執行則可實現更高并行度:智能體能并發工作,并在需要時動態生成新的子智能體。但異步同時帶來結果協調、狀態一致性和錯誤傳播等新挑戰。隨著模型處理更長、更復雜研究任務的能力提升,我們預計性能提升將抵消由此帶來的復雜性。
結論
在構建 AI 智能體的過程中,最后一公里往往成為最為艱難的階段。開發者本地能夠運行的代碼,距離成為可靠的生產系統還需要大量工程化努力。在智能體系統中,錯誤具有復合特性,這意味著對于傳統軟件而言的輕微問題,可能會導致智能體完全崩潰。只要某一步失敗,智能體就可能走向完全不同的路徑,進而產生不可預測的結果。正如本文所述,從原型到生產環境之間的鴻溝,往往比人們預期的更為寬廣。
盡管存在這些挑戰,多智能體系統在開放性研究任務中依然展現出巨大價值。用戶反饋稱,Claude 幫助他們發現了未曾考慮過的商業機會,理清了復雜的醫療方案,解決了棘手的技術難題,還能通過揭示原本難以獨立發現的研究關聯,節省數天工作時間。只要注重工程細節、全面測試、精心設計提示詞和工具、完善運維實踐,并確保研究、產品與工程團隊之間緊密協作,對當前智能體能力有深刻理解,多智能體研究系統完全可以在規模化應用中保持可靠運行。我們已經看到,這些系統正在改變人們解決復雜問題的方式。

圖/Clio 嵌入圖展示了當前用戶對 Research 功能的主要使用方式。最常見的五大使用場景為:在專業領域開發軟件系統(10%)、撰寫與優化專業及技術內容(8%)、制定企業增長與營收策略(8%)、輔助學術研究與教學資料開發(7%)、以及查詢與核實人物、地點或組織等相關信息(5%)。
作者:Jeremy Hadfield、Barry Zhang、Kenneth Lien、Florian Scholz、Jeremy Fox 與 Daniel Ford。本項目凝聚了 Anthropic 多個團隊的共同努力,使 Research 功能成為可能。特別感謝 Anthropic 應用工程團隊,正是他們的專注與奉獻,將這一復雜的多智能體系統推向了生產環境。我們也感謝早期用戶們提供的寶貴反饋。
附錄
以下是關于多智能體系統的一些補充建議。
評估跨多輪對話持續變更狀態的智能體終態。 對于在多輪對話中持續修改持久狀態的智能體,其評估面臨獨特挑戰。與只讀型研究任務不同,每一步操作都會影響后續環境,形成步驟間的依賴關系,傳統評估方法難以應對。我們的做法是關注終態評估(end-state evaluation),而非每一步的細致分析。與其考察智能體是否遵循了特定流程,不如評估其最終是否達到了正確的目標狀態。這種方法認可了智能體實現目標的多樣路徑,同時確保結果符合預期。對于復雜流程,可將評估拆分為若干關鍵檢查點,考察每個階段是否發生了應有的狀態變更,而無需驗證每一步細節。
長周期對話管理。 生產環境下的智能體常需應對長達數百輪的對話,這對上下文管理提出了更高要求。隨著對話延長,常規的上下文窗口已不夠用,必須依靠智能壓縮與記憶機制。我們的做法是讓智能體在完成某一階段任務后,總結關鍵信息并存儲于外部記憶系統,然后再進入新任務。當接近上下文限制時,智能體可創建新的子智能體,以干凈的上下文繼續任務,并通過精心設計的交接流程保持連貫性。此外,智能體可隨時從記憶中調取如研究計劃等已存信息,而非因窗口溢出丟失工作進展。這種分布式方法可有效防止上下文溢出,同時保持長對話的一致性和連貫性。
子智能體直接輸出至文件系統,減少“傳話游戲”信息損失。 對于某些類型的結果,允許子智能體繞過主協調者(coordinator)直接輸出,可提升結果的保真度和系統性能。與其讓子智能體一切信息都經主智能體轉述,不如引入工件系統(artifact systems),讓專業化子智能體可獨立生成、存儲持久化輸出。子智能體通過工具將工作成果存入外部系統,再將輕量級引用信息交還協調者。這一模式可防止多輪處理過程中的信息損失,也減少了因歷史對話反復復制大塊輸出而造成的 token 消耗。對于結構化輸出(如代碼、報告或數據可視化)而言,采用專業子智能體的專屬提示詞,往往比通過通用協調者轉述更能保證結果質量。
(本文由 AI 翻譯,網易編輯負責校對)
本文鏈接:http://www.rrqrq.com/showinfo-45-13893-0.html性能提升 90%,Anthropic 首次公開多智能體系統構建全流程
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]