9 月 1 日消息,美團今日正式發布 LongCat-Flash-Chat,并同步開源。
LongCat-Flash 采用創新性混合專家模型(Mixture-of-Experts,MoE)架構,總參數 560B,激活參數 18.6B~31.3B(平均 27B),實現了計算效率與性能的雙重優化。
LongCat-Flash 模型在架構層面引入“零計算專家(Zero-Computation Experts)”機制,總參數量 560B,每個 token 依據上下文需求僅激活 18.6B~31.3 B 參數,實現算力按需分配和高效利用。為控制總算力消耗,訓練過程采用 PID 控制器實時微調專家偏置,將單 token 平均激活量穩定在約 27B。
此外,LongCat-Flash 在層間鋪設跨層通道,使 MoE 的通信和計算能很大程度上并行,提高了訓練和推理效率。配合定制化的底層優化,LongCat-Flash 在 30 天內完成訓練,并在 H800 上實現單用戶 100+ tokens / s 的推理速度。LongCat-Flash 還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,并結合了多項策略保證訓練穩定性。
針對智能體(Agentic)能力,LongCat-Flash 自建了 Agentic 評測集指導數據策略,并在訓練全流程進行了全面的優化,包括使用多智能體方法生成多樣化高質量的軌跡數據等,實現了更好的智能體能力。
通過算法和工程層面的聯合設計,LongCat-Flash 在理論上的成本和速度都大幅領先行業同等規模、甚至規模更小的模型;通過系統優化,LongCat-Flash 在 H800 上達成了 100 tokens / s 的生成速度,在保持極致生成速度的同時,輸出成本低至 5 元 / 百萬 token。
根據多項基準測試綜合評估,作為一款非思考型基礎模型,LongCat-Flash-Chat 在僅激活少量參數的前提下,性能比肩當下領先的主流模型,尤其在智能體任務中具備突出優勢。并且,因為面向推理效率的設計和創新,LongCat-Flash-Chat 具有明顯更快的推理速度,更適合于耗時較長的復雜智能體應用。
在通用領域知識方面,LongCat-Flash 在 ArenaHard-V2 基準測試中取得 86.50 的成績,位列所有評估模型中的第二名。在基礎基準測試中,MMLU(多任務語言理解基準)得分為 89.71,CEval(中文通用能力評估基準)得分為 90.44。這些成績可與目前國內領先的模型比肩,且其參數規模少于 DeepSeek-V3.1、Kimi-K2 等產品。
在智能體(Agentic)工具使用方面,LongCat-Flash 展現出明顯優勢:即便與參數規模更大的模型相比,其在 τ2-Bench(智能體工具使用基準)中的表現仍超越其他模型;在高復雜度場景下,該模型在 VitaBench(復雜場景智能體基準)中以 24.30 的得分位列第一。
在編程方面,LongCat-Flash 在 TerminalBench(終端命令行任務基準)中,以 39.51 的得分位列第二;在 SWE-Bench-Verified(軟件工程師能力驗證基準)中得分為 60.4。
在指令遵循方面,LongCat-Flash 在 IFEval(指令遵循評估基準)中以 89.65 的得分位列第一;此外,在 COLLIE(中文指令遵循基準)和 Meeseeks-zh(中文多場景指令基準)中也斬獲最佳成績,分別為 57.10 和 43.03,凸顯其在中英文兩類不同語言、不同高難度指令集上的駕馭能力。
目前,LongCat-Flash-Chat 在 Github、Hugging Face 平臺同步開源。附開源地址:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github:https://github.com/meituan-longcat/LongCat-Flash-Chat
體驗官網:https://longcat.ai/
本文鏈接:http://www.rrqrq.com/showinfo-45-27231-0.html美團發布并開源 LongCat-Flash-Chat 大模型:總參數 560B,AI 智能體任務表現突出
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com