當(dāng)前位置：首頁 > 元宇宙 > AI

LeCun 團(tuán)隊(duì)開源首款代碼世界模型，能像程序員一樣思考的 LLM 來了

來源：責(zé)編：時(shí)間：2025-09-26 17:37:53 259觀看

導(dǎo)讀瘋狂挖人的 Meta，終于在今天發(fā)布了最新 AI 研發(fā)成果！代碼世界模型 CWM 是本次發(fā)布的模型，創(chuàng)新性地將世界模型引入了代碼生成任務(wù)中。這是否會(huì)成為編程模型新范式？瘋狂挖人的 Meta，終于把他們的 AI 研發(fā)新成果端上

瘋狂挖人的 Meta，終于在今天發(fā)布了最新 AI 研發(fā)成果！代碼世界模型 CWM 是本次發(fā)布的模型，創(chuàng)新性地將世界模型引入了代碼生成任務(wù)中。這是否會(huì)成為編程模型新范式？

瘋狂挖人的 Meta，終于把他們的 AI 研發(fā)新成果端上來了！

就在今天，Meta 官宣發(fā)布了一款名為代碼世界模型（Code World Model，CWM）的 LLM，探索如何使用世界模型改進(jìn) AI 代碼生成性能。

Yann LeCun 也親自下場(chǎng)轉(zhuǎn)發(fā)撐場(chǎng)子了。

CWM 究竟有哪些創(chuàng)新點(diǎn)？這個(gè) 32B 的參數(shù)相對(duì)較小的大模型，究竟有多強(qiáng)？

CWM 創(chuàng)新點(diǎn)

本次發(fā)布的 CWM，最大的創(chuàng)新點(diǎn)是，將世界模型引入了代碼生成任務(wù)中。

簡(jiǎn)言之，該模型的核心正如 Yann LeCun 所言：生成代碼時(shí)，通過提前預(yù)測(cè)即將生成的代碼指令可能產(chǎn)生的效果，來更好地規(guī)劃出能夠滿足人類期望達(dá)成的效果的代碼，從而改進(jìn)生成代碼的質(zhì)量。

當(dāng)人類進(jìn)行規(guī)劃時(shí)，我們會(huì)設(shè)想不同行動(dòng)可能產(chǎn)生的結(jié)果。

當(dāng)人類思考代碼時(shí)，會(huì)在腦海中模擬其部分執(zhí)行過程。

而目前市面上的主流語言模型，還很難做到這一點(diǎn)。

專門訓(xùn)練一個(gè)代碼世界模型，補(bǔ)足這一點(diǎn)，生成代碼的效果會(huì)不會(huì)好很多，是 Meta 要通過本次發(fā)布的 CWM 驗(yàn)證的猜想。

CWM 基于大量編程數(shù)據(jù)，加上專門定制的 Python 和 Bash（Linux 和 macOS 的命令行解釋器腳本語言）的世界建模數(shù)據(jù)，進(jìn)行該模型的訓(xùn)練。

通過這種訓(xùn)練，CWM 能夠模擬 Python 程序在 Bash 環(huán)境中的執(zhí)行及與 Agent 之間的交互。

對(duì)于「數(shù)數(shù) strawberry 中有多少個(gè) r」這個(gè)難倒無數(shù)大模型的問題，CWM 也用類似 pdb（Python Debug 用的調(diào)試器）的形式演示了其工作流程：

CWM 直接發(fā)布了 3 個(gè)不同的 Checkpoint，用于不同目的。

CWM 性能測(cè)試

「光說不練假把式」，我們直接看看這個(gè) 32B 的小參數(shù)大模型在各類編程基準(zhǔn)測(cè)試中的表現(xiàn)如何。

SWE-bench Verified 是一個(gè)真實(shí)開源項(xiàng)目修復(fù)的最常用的編程評(píng)測(cè)標(biāo)準(zhǔn)，讓模型在真實(shí)的大型開源倉庫里，根據(jù) GitHub issue+failing tests，定位并修復(fù)缺陷，最終以自動(dòng)化測(cè)試是否全部通過來判定是否解決。

在該項(xiàng)測(cè)試中，32B 小參數(shù)的 CWM 成績(jī)?yōu)?65.8%，遜于 Qwen3-Coder 和 Kimi-K2-Instruct，與閉源的 Gemini-2.5-Thinking 接近，屬于開源陣營第一梯隊(duì)了。

其他測(cè)試成績(jī) Alexandr Wang 也直接發(fā)出來了：

LiveCodeBench：68.6%

Math-500：96.6%

AIME 2024：76.0%

CWM 模型算是 Meta 的一次概念驗(yàn)證，投入了不算多的算力訓(xùn)練這個(gè)小參數(shù)大模型，主要是為了檢驗(yàn)將世界模型引入代碼生成任務(wù)是否會(huì)顯著提高生成代碼質(zhì)量。

換言之，我們今日看到的這個(gè)模型只能算 Demo。大的還在后面？

參考資料：

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

本文來自微信公眾號(hào)：新智元（ID：AI_era）

本文鏈接：http://www.rrqrq.com/showinfo-45-28126-0.htmlLeCun 團(tuán)隊(duì)開源首款代碼世界模型，能像程序員一樣思考的 LLM 來了

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： Google DeepMind新突破：機(jī)器人可聯(lián)網(wǎng)搜索，智能化水平再上新臺(tái)階

下一篇： OpenAI 最強(qiáng) AI 智能體曝光：基于 GPT-5，輕松駕馭寫作、編程、生圖等任務(wù)

標(biāo)簽：

熱門焦點(diǎn)

一份全面清單：Web3行業(yè)高薪酬的13種工作

來源：區(qū)塊鏈騎士這可能會(huì)讓許多人感到震驚，但除了成為開發(fā)人員之外，Web3還有其他高薪工作。Web3可能是現(xiàn)代就業(yè)市場(chǎng)中跨學(xué)科最多的領(lǐng)域，換句話說，它由許多個(gè)在不同領(lǐng)域中具有不同
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規(guī)模預(yù)訓(xùn)GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規(guī)模預(yù)訓(xùn)練模型（大模型）漸漸成為了AI算法領(lǐng)域的熱點(diǎn)。AI產(chǎn)業(yè)鏈：從算力到應(yīng)用工作流程視角?
AI特效、虛擬人、數(shù)字盲盒，來看看元宇宙如何融合冬奧會(huì)！

今天是冬奧會(huì)比賽的第12天，截至目前所累計(jì)的成績(jī)，中國代表團(tuán)已經(jīng)取得了冬奧歷史最佳戰(zhàn)績(jī)。全世界的人都在關(guān)注著這場(chǎng)盛事，為奧運(yùn)健兒吶喊助威。谷愛凌、徐夢(mèng)桃、
吸金31億美元，誰在催火2021年的鏈游？

2021年究竟發(fā)生了什么，才使得鏈游領(lǐng)域在這年一飛沖天？作者：廖羽2022年2月16日，Invest Game發(fā)布《2021年全球游戲投資報(bào)告》，報(bào)告顯示，游戲行業(yè)的投資重點(diǎn)正在向區(qū)塊
2022年元宇宙系列報(bào)告：UGC當(dāng)?shù)溃琗R帶來新交互體驗(yàn)

UGC作為元宇宙的主要內(nèi)容創(chuàng)作模式，已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念
NFT 技術(shù)將傳世之作帶入博物館

意大利四大博物館已與一個(gè)項(xiàng)目合作，該項(xiàng)目將展示和銷售達(dá)芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復(fù)制品。該計(jì)劃采用了科技公司Cincello的國際專
NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者，她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術(shù)作品，和她自己的數(shù)字藝術(shù)之路。Hayley是加利福尼亞灣區(qū)的有
就業(yè)年齡歧視如何解決？來Web3看看

上周，我突然想到我的第一份工作實(shí)際上是在為一家失敗的航空公司制定破產(chǎn)退出計(jì)劃，那年我們的協(xié)議實(shí)習(xí)生剛出生。在一陣恐慌后，我又花了一點(diǎn)時(shí)間反思我這個(gè)擁有近1
初探元宇宙

2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺(tái)Roblox將“元宇宙”概念放入招股書中，被稱為“元宇宙”第一股后，F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

LeCun 團(tuán)隊(duì)開源首款代碼世界模型，能像程序員一樣思考的 LLM 來了

一份全面清單：Web3行業(yè)高薪酬的13種工作

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

AI特效、虛擬人、數(shù)字盲盒，來看看元宇宙如何融合冬奧會(huì)！

吸金31億美元，誰在催火2021年的鏈游？

2022年元宇宙系列報(bào)告：UGC當(dāng)?shù)溃琗R帶來新交互體驗(yàn)

NFT 技術(shù)將傳世之作帶入博物館

NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

就業(yè)年齡歧視如何解決？來Web3看看

初探元宇宙

最新推薦

“平均時(shí)代”：ChatGPT模仿秀的隱喻

紐約街頭出現(xiàn)NFT自動(dòng)販賣機(jī)

a16z：元宇宙辦公會(huì)取代實(shí)體辦公室嗎？

頭像類NFTs的統(tǒng)治能持續(xù)多久？

大廠打造元宇宙平臺(tái)的業(yè)務(wù)重心是什么？

元宇宙不完全是想出來的，而是實(shí)打?qū)嵶龀鰜淼?/a>

猜你喜歡

熱門推薦

相關(guān)資訊