6 月 21 日消息,從月之暗面 Kimi 公眾號(hào)獲悉,Kimi 的第一個(gè) Agent(智能體)Kimi-Researcher 于 20 日開啟小范圍灰度測(cè)試。

Kimi-Researcher 是基于端到端自主強(qiáng)化學(xué)習(xí)(end-to-end agentic RL)技術(shù)訓(xùn)練的新一代 Agent 模型,也是一個(gè)專為深度研究任務(wù)而生的 Agent 產(chǎn)品。其后,月之暗面也將逐步開源 Kimi-Researcher 基礎(chǔ)預(yù)訓(xùn)練模型及強(qiáng)化學(xué)習(xí)后的模型。
對(duì)于每一個(gè)問題,Kimi-Researcher 都會(huì)自主規(guī)劃任務(wù)執(zhí)行流程,最終交付完整結(jié)果:
澄清問題(clarification):理解問題時(shí)主動(dòng)反問,構(gòu)建更清晰的問題空間;
深入思考:每個(gè)任務(wù)平均進(jìn)行 23 步推理,自主梳理并解決需求;
主動(dòng)搜索:每個(gè)任務(wù),平均規(guī)劃 74 個(gè)關(guān)鍵詞,找到 206 個(gè)網(wǎng)址,由模型判斷并篩選出信息質(zhì)量最高的前 3.2% 內(nèi)容,剔除冗余、低質(zhì)信息;
調(diào)用工具,交付結(jié)果:自主調(diào)用瀏覽器、代碼等工具,處理原始數(shù)據(jù)、自動(dòng)生成分析結(jié)論,端到端完成交付。
為了保證輸出的質(zhì)量和信息覆蓋度,Kimi-Researcher 采用異步執(zhí)行方式,用更多時(shí)間逐步推理、檢索和撰寫內(nèi)容。

用戶最終將收到 2 個(gè)交付成果。
一份信息詳實(shí)、可溯源的深度研究報(bào)告
報(bào)告的平均長(zhǎng)度在萬字以上;
平均引用約 26 個(gè)高質(zhì)量、可溯源的信源;
所有引用都內(nèi)嵌在正文中,點(diǎn)擊即可跳轉(zhuǎn),并高亮原文,便于驗(yàn)證與追溯。

一個(gè)可交互、可分享的動(dòng)態(tài)可視化報(bào)告
結(jié)構(gòu)化排版、思維導(dǎo)圖,讓趨勢(shì)、異常等重要信息一眼可見;
無需閱讀全文,也能迅速把握整體結(jié)構(gòu)與核心結(jié)論;
支持在線生成鏈接并分享,方便展示。

官方宣布,在專為 AI 設(shè)計(jì)的高難度 benchmark“人類最后一次考試(Humanity's Last Exam,HLE)”中,Kimi-Researcher 在完全零結(jié)構(gòu)、無流程設(shè)計(jì)的設(shè)置下,得分如下:
Pass@1 準(zhǔn)確率:26.9%
Pass@4 準(zhǔn)確率:40.17%
這一表現(xiàn)超過了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。在紅杉中國(guó)發(fā)布的 xbench 基準(zhǔn)測(cè)試中 —— 一套對(duì)齊真實(shí)任務(wù)場(chǎng)景的 AI 能力評(píng)估體系,Kimi-Researcher 在 DeepSearch 任務(wù)中取得 69% 的平均通過率,領(lǐng)先該榜中其他模型。

本文鏈接:http://www.rrqrq.com/showinfo-45-13996-0.html月之暗面 Kimi-Researcher 深度研究模型開啟內(nèi)測(cè):可生成易追溯的萬字報(bào)告
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 杰美特籌劃重大資產(chǎn)重組,意在收購(gòu)英偉達(dá)、華為昇騰生態(tài)伙伴思騰合力
下一篇: Anthropic 警告:包括 Claude 在內(nèi)的大多數(shù) AI 模型會(huì)實(shí)施“勒索”行為