瘋狂挖人的 Meta,終于在今天發(fā)布了最新 AI 研發(fā)成果!代碼世界模型 CWM 是本次發(fā)布的模型,創(chuàng)新性地將世界模型引入了代碼生成任務(wù)中。這是否會成為編程模型新范式?
瘋狂挖人的 Meta,終于把他們的 AI 研發(fā)新成果端上來了!
就在今天,Meta 官宣發(fā)布了一款名為代碼世界模型(Code World Model,CWM)的 LLM,探索如何使用世界模型改進(jìn) AI 代碼生成性能。
Yann LeCun 也親自下場轉(zhuǎn)發(fā)撐場子了。
CWM 究竟有哪些創(chuàng)新點(diǎn)?這個 32B 的參數(shù)相對較小的大模型,究竟有多強(qiáng)?
CWM 創(chuàng)新點(diǎn)本次發(fā)布的 CWM,最大的創(chuàng)新點(diǎn)是,將世界模型引入了代碼生成任務(wù)中。
簡言之,該模型的核心正如 Yann LeCun 所言:生成代碼時,通過提前預(yù)測即將生成的代碼指令可能產(chǎn)生的效果,來更好地規(guī)劃出能夠滿足人類期望達(dá)成的效果的代碼,從而改進(jìn)生成代碼的質(zhì)量。
當(dāng)人類進(jìn)行規(guī)劃時,我們會設(shè)想不同行動可能產(chǎn)生的結(jié)果。
當(dāng)人類思考代碼時,會在腦海中模擬其部分執(zhí)行過程。
而目前市面上的主流語言模型,還很難做到這一點(diǎn)。
專門訓(xùn)練一個代碼世界模型,補(bǔ)足這一點(diǎn),生成代碼的效果會不會好很多,是 Meta 要通過本次發(fā)布的 CWM 驗證的猜想。
CWM 基于大量編程數(shù)據(jù),加上專門定制的 Python 和 Bash(Linux 和 macOS 的命令行解釋器腳本語言)的世界建模數(shù)據(jù),進(jìn)行該模型的訓(xùn)練。
通過這種訓(xùn)練,CWM 能夠模擬 Python 程序在 Bash 環(huán)境中的執(zhí)行及與 Agent 之間的交互。
對于「數(shù)數(shù) strawberry 中有多少個 r」這個難倒無數(shù)大模型的問題,CWM 也用類似 pdb(Python Debug 用的調(diào)試器)的形式演示了其工作流程:
CWM 直接發(fā)布了 3 個不同的 Checkpoint,用于不同目的。
「光說不練假把式」,我們直接看看這個 32B 的小參數(shù)大模型在各類編程基準(zhǔn)測試中的表現(xiàn)如何。
SWE-bench Verified 是一個真實(shí)開源項目修復(fù)的最常用的編程評測標(biāo)準(zhǔn),讓模型在真實(shí)的大型開源倉庫里,根據(jù) GitHub issue+failing tests,定位并修復(fù)缺陷,最終以自動化測試是否全部通過來判定是否解決。
在該項測試中,32B 小參數(shù)的 CWM 成績?yōu)?65.8%,遜于 Qwen3-Coder 和 Kimi-K2-Instruct,與閉源的 Gemini-2.5-Thinking 接近,屬于開源陣營第一梯隊了。
其他測試成績 Alexandr Wang 也直接發(fā)出來了:
LiveCodeBench:68.6%
Math-500:96.6%
AIME 2024:76.0%
CWM 模型算是 Meta 的一次概念驗證,投入了不算多的算力訓(xùn)練這個小參數(shù)大模型,主要是為了檢驗將世界模型引入代碼生成任務(wù)是否會顯著提高生成代碼質(zhì)量。
換言之,我們今日看到的這個模型只能算 Demo。大的還在后面?
參考資料:
https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
https://x.com/syhw/status/1970960837721653409
https://x.com/AIatMeta/status/1970963571753222319
https://x.com/ylecun/status/1970967341052854748
https://x.com/alexandr_wang/status/1970973317227225433
本文來自微信公眾號:新智元(ID:AI_era)
本文鏈接:http://www.rrqrq.com/showinfo-45-28123-0.htmlLeCun 團(tuán)隊開源首款代碼世界模型,能像程序員一樣思考的 LLM 來了
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com