強化學習(RL)+ 真實搜索引擎,可以有效提升大模型檢索-推理能力。
但問題來了:
一方面,搜索引擎返回的文檔質量難以預測,給訓練過程帶來了噪音和不穩定性。
另一方面,RL 訓練需要頻繁部署,會產生大量 API 開銷,嚴重限制可擴展性。
現在,來自阿里通義實驗室的解決方案公開了:開源 ZeroSearch,提供了一種無需與真實搜索引擎交互的強化學習框架。
實驗表明,ZeroSearch 僅需 3B 參數的 LLM 作為檢索模塊,即可有效提升搜索能力,節省了高昂 API 成本。

研究團隊用模擬搜索環境 + 漸進式抗噪訓練,讓 LLM 不再依賴昂貴搜索引擎 API。

用少量標注數據微調 LLM,使其能按指令生成兩種文檔 —— 有用結果和噪聲干擾。

通過收集與真實搜索引擎交互的數據,ZeroSearch 對 LLM 進行輕量級監督微調。
在這個過程中,模型學會生成與真實搜索引擎風格相似的文檔,同時能夠根據提示詞生成相關或噪聲文檔。
這種能力使得模型在訓練過程中能夠動態調整文檔質量,從而更好地模擬真實檢索場景。
課程化抗噪訓練:像打游戲升級一樣練模型訓練初期返回高質文檔,后期逐漸混入噪聲(噪聲比例按指數曲線上升)。
ZeroSearch 引入了課程式學習機制,逐步降低生成文檔的質量,使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。
這種策略不僅提升了模型的推理能力,還顯著增強了訓練的穩定性和效果。


隨著訓練的進行,模型逐漸適應更復雜的檢索任務,最終能夠在高質量和低質量文檔中找到平衡。
強化學習閉環:自產自銷的搜索生態ZeroSearch 通過模擬搜索引擎,完全消除了與真實搜索引擎交互的 API 費用,使得大規模強化學習訓練變得更加經濟可行。
并且,ZeroSearch 兼容多種強化學習算法,包括 PPO(Proximal Policy Optimization)和 GRPO(Group Relative Policy Optimization)。
這些算法為模型提供了不同的優化策略,使得 ZeroSearch 能夠在不同的模型和任務中表現出色。
實驗表明,GRPO 在訓練穩定性方面表現更好,而 PPO 則在某些任務中提供了更高的靈活性。
實驗結果及結論ZeroSearch 的零 API 成本優勢不僅體現在經濟上,還體現在訓練的靈活性和可擴展性上。
ZeroSearch vs. 現有方法
在圖中,我們可以清晰地看到 ZeroSearch 在多個問答數據集上的表現。
無論是單跳(Single-Hop)還是多跳(Multi-Hop)問答任務,ZeroSearch 都顯著優于現有的基線方法,包括直接提示、RAG 和 Search-R1 等。
這表明 ZeroSearch 不僅在簡單任務中表現出色,還能在復雜的多跳問答任務中發揮強大的檢索能力。

上圖展示了 ZeroSearch 和 Search-R1(使用真實搜索引擎)在 LLaMA-3.2-3B 模型上的獎勵曲線對比。
ZeroSearch 的學習曲線更加平滑且最終性能優于 Search-R1,表明其在訓練過程中的穩定性和優越性。
不同模型規模的性能
可以看到使用 7B 參數的檢索模塊就能達到與谷歌搜索相當的性能,而 14B 參數的檢索模塊甚至能夠超越谷歌搜索。
這表明 ZeroSearch 不僅適用于小型模型,還能在大型模型中發揮更大的潛力,為 LLM 的檢索能力提升提供了廣闊的空間。
強化學習算法的兼容性
比較了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上,使用 PPO 和 GRPO 算法的 ZeroSearch 性能,可以看到 ZeroSearch 與 PPO 和 GRPO 兩種強化學習算法的兼容性。
實驗結果表明,GRPO 在訓練穩定性方面表現更好,而 PPO 則在某些任務中提供了更高的靈活性。
這表明 ZeroSearch 能夠適應不同的強化學習算法,為研究人員提供了更多的選擇。
通過模擬搜索引擎,ZeroSearch 完全消除了 API 成本,同時通過課程式學習策略逐步提升模型的推理能力。
論文第一作者孫浩目前是北京大學智能學院四年級博士研究生,研究方向聚焦于檢索增強的大語言模型與智能體,師從張巖教授。
論文鏈接:
https://arxiv.org/abs/2505.04588
項目主頁:
https://alibaba-nlp.github.io/ ZeroSearch
本文來自微信公眾號:量子位(ID:QbitAI),作者:聞樂
本文鏈接:http://www.rrqrq.com/showinfo-45-13012-0.html通義實驗室新研究:大模型自己「扮演」搜索引擎,提升推理能力無需搜索 API
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]