瘋狂挖人的 Meta,終于在今天發布了最新 AI 研發成果!代碼世界模型 CWM 是本次發布的模型,創新性地將世界模型引入了代碼生成任務中。這是否會成為編程模型新范式?
瘋狂挖人的 Meta,終于把他們的 AI 研發新成果端上來了!
就在今天,Meta 官宣發布了一款名為代碼世界模型(Code World Model,CWM)的 LLM,探索如何使用世界模型改進 AI 代碼生成性能。
Yann LeCun 也親自下場轉發撐場子了。
CWM 究竟有哪些創新點?這個 32B 的參數相對較小的大模型,究竟有多強?
CWM 創新點本次發布的 CWM,最大的創新點是,將世界模型引入了代碼生成任務中。
簡言之,該模型的核心正如 Yann LeCun 所言:生成代碼時,通過提前預測即將生成的代碼指令可能產生的效果,來更好地規劃出能夠滿足人類期望達成的效果的代碼,從而改進生成代碼的質量。
當人類進行規劃時,我們會設想不同行動可能產生的結果。
當人類思考代碼時,會在腦海中模擬其部分執行過程。
而目前市面上的主流語言模型,還很難做到這一點。
專門訓練一個代碼世界模型,補足這一點,生成代碼的效果會不會好很多,是 Meta 要通過本次發布的 CWM 驗證的猜想。
CWM 基于大量編程數據,加上專門定制的 Python 和 Bash(Linux 和 macOS 的命令行解釋器腳本語言)的世界建模數據,進行該模型的訓練。
通過這種訓練,CWM 能夠模擬 Python 程序在 Bash 環境中的執行及與 Agent 之間的交互。
對于「數數 strawberry 中有多少個 r」這個難倒無數大模型的問題,CWM 也用類似 pdb(Python Debug 用的調試器)的形式演示了其工作流程:
CWM 直接發布了 3 個不同的 Checkpoint,用于不同目的。
「光說不練假把式」,我們直接看看這個 32B 的小參數大模型在各類編程基準測試中的表現如何。
SWE-bench Verified 是一個真實開源項目修復的最常用的編程評測標準,讓模型在真實的大型開源倉庫里,根據 GitHub issue+failing tests,定位并修復缺陷,最終以自動化測試是否全部通過來判定是否解決。
在該項測試中,32B 小參數的 CWM 成績為 65.8%,遜于 Qwen3-Coder 和 Kimi-K2-Instruct,與閉源的 Gemini-2.5-Thinking 接近,屬于開源陣營第一梯隊了。
其他測試成績 Alexandr Wang 也直接發出來了:
LiveCodeBench:68.6%
Math-500:96.6%
AIME 2024:76.0%
CWM 模型算是 Meta 的一次概念驗證,投入了不算多的算力訓練這個小參數大模型,主要是為了檢驗將世界模型引入代碼生成任務是否會顯著提高生成代碼質量。
換言之,我們今日看到的這個模型只能算 Demo。大的還在后面?
參考資料:
https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
https://x.com/syhw/status/1970960837721653409
https://x.com/AIatMeta/status/1970963571753222319
https://x.com/ylecun/status/1970967341052854748
https://x.com/alexandr_wang/status/1970973317227225433
本文來自微信公眾號:新智元(ID:AI_era)
本文鏈接:http://www.rrqrq.com/showinfo-45-28126-0.htmlLeCun 團隊開源首款代碼世界模型,能像程序員一樣思考的 LLM 來了
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com