国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

Meta LIama 4 重奪開(kāi)源第一:DeepSeek 同等代碼能力但參數(shù)減半,一張 H100 就能跑,還有兩萬(wàn)億參數(shù)超大杯

來(lái)源: 責(zé)編: 時(shí)間:2025-04-08 10:04:22 139觀看
導(dǎo)讀 AI 不過(guò)周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發(fā)布了。這是 Meta 首個(gè)基于 MoE 架構(gòu)模型系列,目前共有三個(gè)款:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。最后一個(gè)尚未推

AI 不過(guò)周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發(fā)布了。XGa28資訊網(wǎng)——每日最新資訊28at.com

這是 Meta 首個(gè)基于 MoE 架構(gòu)模型系列,目前共有三個(gè)款:XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。XGa28資訊網(wǎng)——每日最新資訊28at.com

最后一個(gè)尚未推出,只是預(yù)告,但 Meta 已經(jīng)毫不避諱地稱(chēng)前兩者是“我們迄今為止最先進(jìn)的型號(hào),也是同類(lèi)產(chǎn)品中最好的多模態(tài)型號(hào)”。XGa28資訊網(wǎng)——每日最新資訊28at.com

詳細(xì)來(lái)看一些關(guān)鍵詞 ——XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Scout,16 位專(zhuān)家的 170 億激活參數(shù)的多模態(tài)模型,單個(gè) H100 GPU 可運(yùn)行,同類(lèi) SOTA,并擁有 10M 上下文窗口。XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Maverick,128 位專(zhuān)家的 170 億激活參數(shù)多模態(tài)模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數(shù)只要一半,主打與 DeepSeek 一樣的性?xún)r(jià)比,單個(gè) H100 主機(jī)即可運(yùn)行。XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Behemoth:2 萬(wàn)億參數(shù)的超大超強(qiáng)模型,以上二者都由這個(gè)模型蒸餾而來(lái);目前還在訓(xùn)練中;多個(gè)基準(zhǔn)測(cè)試超過(guò) GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

Meta 官推激情表示,這些 Llama 4 模型標(biāo)志著 Llama 生態(tài)系統(tǒng)新時(shí)代 —— 原生多模態(tài) AI 創(chuàng)新的開(kāi)始。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

與此同時(shí),大模型競(jìng)技場(chǎng)排名迎來(lái)一輪更新。XGa28資訊網(wǎng)——每日最新資訊28at.com

此次發(fā)布的 Llama 4 Maverick,在困難提示、編碼、數(shù)學(xué)、創(chuàng)意寫(xiě)作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個(gè)突破 1400 分的模型;。XGa28資訊網(wǎng)——每日最新資訊28at.com

而且跑分明確 —— 超越 DeepSeek-V3,實(shí)現(xiàn)亮相即登頂,直接成為排名第一的開(kāi)源模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

谷歌 CEO 劈柴哥第一時(shí)間發(fā)來(lái)賀電:XGa28資訊網(wǎng)——每日最新資訊28at.com

AI 世界,從不平淡!XGa28資訊網(wǎng)——每日最新資訊28at.com

恭喜呀!前進(jìn)吧,Llama 4 團(tuán)隊(duì)!XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

中杯、大杯首批亮相

了解了 Llama 4 家族全體成員后,我們先來(lái)見(jiàn)識(shí)一下首批發(fā)布的 2 個(gè)模型:XGa28資訊網(wǎng)——每日最新資訊28at.com

中杯XGa28資訊網(wǎng)——每日最新資訊28at.com

:Llama 4 Scout(偵查兵 Llama 4)。XGa28資訊網(wǎng)——每日最新資訊28at.com

大杯XGa28資訊網(wǎng)——每日最新資訊28at.com

:Llama 4 Maverick(特立獨(dú)行的 Llama 4)。XGa28資訊網(wǎng)——每日最新資訊28at.com

兩者均已能在 Llama 官網(wǎng)和抱抱臉上下載。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

我們抓取并提煉出這倆模型的一些特點(diǎn):XGa28資訊網(wǎng)——每日最新資訊28at.com

Meta 首批 MoE 架構(gòu)模型

這是 Llama 系列,第一批使用 MoE(混合專(zhuān)家模型)構(gòu)建的模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

中杯 Llama 4 Scout 有 17B 激活參數(shù),擁有 16 個(gè)專(zhuān)家模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

大杯 Llama 4 Maverick 擁有 17B 激活參數(shù),擁有 128 個(gè)專(zhuān)家模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

至于還沒(méi)和大家正式見(jiàn)面的超大杯 Llama 4 Maverick,擁有 288B 激活參數(shù),擁有 16 個(gè)專(zhuān)家模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

非常長(zhǎng) ———— 的上下文

Llama 4 系列,均具有很長(zhǎng)的上下文窗口。XGa28資訊網(wǎng)——每日最新資訊28at.com

這一點(diǎn)主要體現(xiàn)在 Meta 公布的中杯 Llama 4 Scout 的詳細(xì)數(shù)據(jù)里:XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Scout 提供了行業(yè)領(lǐng)先的 100 萬(wàn)上下文窗口。XGa28資訊網(wǎng)——每日最新資訊28at.com

經(jīng)過(guò)預(yù)訓(xùn)練和后訓(xùn)練,Llama 4 Scout 長(zhǎng)度為 256K,這使基本模型具有高級(jí)長(zhǎng)度泛化能力。XGa28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)配置,讓它在廣泛的測(cè)評(píng)集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結(jié)果更優(yōu)秀。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

它在「大海撈針」測(cè)試上的表現(xiàn)如下:XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果如下:XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

那么之前的 Llama 系列模型的上下文窗口情況呢?XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 1,上下文窗口為 2k;XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 2,上下文窗口默認(rèn)為 4k,但可以通過(guò)微調(diào)等可以拓展到 32k;XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 3,上下文窗口是 8k,后來(lái) Llama 3.1 的長(zhǎng)文本能力拓展到了 128k。XGa28資訊網(wǎng)——每日最新資訊28at.com

Meta 官方博客中是這么寫(xiě)的:XGa28資訊網(wǎng)——每日最新資訊28at.com

(Llama 4 的長(zhǎng)上下文)開(kāi)辟了一個(gè)充滿(mǎn)可能性的世界,包括多文檔摘要、解析廣泛的用戶(hù)活動(dòng)以執(zhí)行個(gè)性化任務(wù)以及對(duì)龐大的代碼庫(kù)進(jìn)行推理。XGa28資訊網(wǎng)——每日最新資訊28at.com

原生多模態(tài)設(shè)計(jì)

Llama 4 系列,開(kāi)啟了 Llama 的原生多模態(tài)時(shí)代。XGa28資訊網(wǎng)——每日最新資訊28at.com

而已經(jīng)公開(kāi)對(duì)外的中杯和大杯,被官方稱(chēng)為“輕量級(jí)原生多模態(tài)模型”。XGa28資訊網(wǎng)——每日最新資訊28at.com

給用戶(hù)的體驗(yàn)就是,上傳一張圖片,可以直接在對(duì)話(huà)框中提問(wèn)關(guān)于這張圖片的各種問(wèn)題。XGa28資訊網(wǎng)——每日最新資訊28at.com

不是我說(shuō),Llama 終于長(zhǎng)眼睛了!!!XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

上面這張動(dòng)圖展示的僅僅是最基礎(chǔ)的,“為難”程都升級(jí)也不怕。XGa28資訊網(wǎng)——每日最新資訊28at.com

比如喂它一張鋪滿(mǎn)工具的圖片,問(wèn)它哪些適合來(lái)干某個(gè)活。XGa28資訊網(wǎng)——每日最新資訊28at.com

它會(huì)很快地把適用的工具圈出來(lái):XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

要認(rèn)顏色 + 認(rèn)小鳥(niǎo),也沒(méi)在怕的:XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

中杯和大杯都在官方介紹中被打上了“世界上同類(lèi)產(chǎn)品中最好的多模態(tài)模型”的 tag。XGa28資訊網(wǎng)——每日最新資訊28at.com

來(lái)看和 Llama 系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite 的對(duì)比結(jié)果 ——XGa28資訊網(wǎng)——每日最新資訊28at.com

可以看到,在各個(gè)測(cè)評(píng)集上的表現(xiàn),Llama 4 Scout 樣樣都是新 SOTA。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

語(yǔ)言天賦 Max

經(jīng)過(guò)了預(yù)訓(xùn)練和微調(diào)的 Llama 4,掌握全球 12 種語(yǔ)言,以此“方便全球開(kāi)發(fā)者的部署”。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

比 DeepSeek 更狠的“AI 模型拼多多”

一定要跟大家分享的一個(gè)細(xì)節(jié),Meta 這次在模型 API 價(jià)格方面,下狠手了!XGa28資訊網(wǎng)——每日最新資訊28at.com

先說(shuō)結(jié)果:XGa28資訊網(wǎng)——每日最新資訊28at.com

系列超大杯 Llama 4 Maverick,不僅超越了同類(lèi)型號(hào)其它模型,價(jià)格還非常之美麗。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

更直觀地來(lái)看這張表格,真的狠過(guò) DeepSeek—— 從性能到價(jià)格各個(gè)緯度。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

要知道,超大杯 Llama 4 Behemoth 屬于是 Llama 4 系列的教師模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

如果說(shuō)中杯和大杯是輕量級(jí)選手,這位就是絕對(duì)的重磅玩家。XGa28資訊網(wǎng)——每日最新資訊28at.com

288B 激活參數(shù),16 個(gè)專(zhuān)家模型。XGa28資訊網(wǎng)——每日最新資訊28at.com

最重要的是,它的總參數(shù)量高達(dá) 2000B!XGa28資訊網(wǎng)——每日最新資訊28at.com

在數(shù)學(xué)、多語(yǔ)言和圖像基準(zhǔn)測(cè)試中,它提供了非推理模型的最先進(jìn)性能。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)“最牛”和“最便宜”擺在一起的時(shí)候,試問(wèn)哪位開(kāi)發(fā)者會(huì)不心動(dòng)?(doge)XGa28資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練細(xì)節(jié)

用他們自己的話(huà)來(lái)說(shuō),Llama 系列是進(jìn)行了徹底的重新設(shè)計(jì)。目前第一組 LIama 4 系列模型,他們也公布了具體的訓(xùn)練細(xì)節(jié)。XGa28資訊網(wǎng)——每日最新資訊28at.com

預(yù)訓(xùn)練

他們首次使用混合專(zhuān)家 MoE 架構(gòu),在 MoE 架構(gòu)中,單個(gè) token 僅激活總參數(shù)的一小部分。MoE 架構(gòu)在訓(xùn)練和推理方面具有更高的計(jì)算效率,固定訓(xùn)練 FLOP 成本情況下質(zhì)量更高。XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

比如,Llama 4Maverick 模型有 17B 個(gè)激活參數(shù)和 400B 個(gè)總參數(shù)。他們使用交替的密集層和混合專(zhuān)家 (MoE) 層來(lái)提高推理效率。XGa28資訊網(wǎng)——每日最新資訊28at.com

MoE 層使用 128 位路由(Routed)專(zhuān)家和一位共享專(zhuān)家。每個(gè)令牌都會(huì)發(fā)送給共享專(zhuān)家以及 128 位路由(Routed)專(zhuān)家之一。XGa28資訊網(wǎng)——每日最新資訊28at.com

因此,雖然所有參數(shù)都存儲(chǔ)在內(nèi)存中,但在為這些模型提供服務(wù)時(shí),只有總參數(shù)的子集被激活。XGa28資訊網(wǎng)——每日最新資訊28at.com

這通過(guò)降低模型服務(wù)成本和延遲來(lái)提高推理效率 ——Llama 4 Maverick 可以在單個(gè) H100 DGX 主機(jī)上運(yùn)行,以便于部署,也可以通過(guò)分布式推理實(shí)現(xiàn)最高效率。XGa28資訊網(wǎng)——每日最新資訊28at.com

他們?cè)缙谌诤希瑢⑽谋竞鸵曈X(jué) token 無(wú)縫集成到統(tǒng)一模型中。XGa28資訊網(wǎng)——每日最新資訊28at.com

他們開(kāi)發(fā)了一種新的訓(xùn)練技術(shù):MetaP,可以設(shè)置關(guān)鍵模型超參數(shù),比如每層的學(xué)習(xí)率和初始化尺度。XGa28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果發(fā)現(xiàn),所選的超參數(shù)能在批量大小、模型寬度、深度和訓(xùn)練 token 的不同值之間很好地?cái)U(kuò)展和泛化 ——XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 通過(guò)在 200 種語(yǔ)言(包括 100 多種語(yǔ)言,每種語(yǔ)言有超過(guò) 10 億個(gè)詞庫(kù))上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了開(kāi)源微調(diào)工作,多語(yǔ)言詞庫(kù)總量是 Llama 3 的 10 倍。XGa28資訊網(wǎng)——每日最新資訊28at.com

此外,他們使用 FP8 精度進(jìn)行高效模型訓(xùn)練,同時(shí)不犧牲質(zhì)量并確保模型 FLOPs 的高利用率 — 在使用 FP8 和 32K GPU 預(yù)訓(xùn)練 Llama 4 Behemoth 模型時(shí),結(jié)果他們實(shí)現(xiàn)了 390TFLOPs / GPU。XGa28資訊網(wǎng)——每日最新資訊28at.com

用于訓(xùn)練的整體混合數(shù)據(jù)包括 30 多萬(wàn)億個(gè) token,是 Llama 3 預(yù)訓(xùn)練混合物的兩倍多,其中包括各種文本、圖像和視頻數(shù)據(jù)集。XGa28資訊網(wǎng)——每日最新資訊28at.com

在所謂的“中期訓(xùn)練”中繼續(xù)訓(xùn)練模型,通過(guò)新的訓(xùn)練方法(包括使用專(zhuān)業(yè)數(shù)據(jù)集進(jìn)行長(zhǎng)上下文擴(kuò)展)來(lái)提高模型的核心功能。XGa28資訊網(wǎng)——每日最新資訊28at.com

后訓(xùn)練

后訓(xùn)練階段,他們提出一個(gè)課程策略,與單個(gè)模式專(zhuān)家模型相比,該策略不會(huì)犧牲性能。XGa28資訊網(wǎng)——每日最新資訊28at.com

在 Llama 4 中,采用了一種不同的方法來(lái)改造我們的后期訓(xùn)練管道:XGa28資訊網(wǎng)——每日最新資訊28at.com

輕量級(jí)監(jiān)督微調(diào) (SFT)> 在線強(qiáng)化學(xué)習(xí) (RL)> 輕量級(jí)直接偏好優(yōu)化 (DPO)。XGa28資訊網(wǎng)——每日最新資訊28at.com

一個(gè)關(guān)鍵的教訓(xùn)是,SFT 和 DPO 可能會(huì)過(guò)度約束模型,限制在線強(qiáng)化學(xué)習(xí)階段的探索,并導(dǎo)致精度降低,尤其是在推理、編碼和數(shù)學(xué)領(lǐng)域。XGa28資訊網(wǎng)——每日最新資訊28at.com

為了解決這個(gè)問(wèn)題,他們使用 Llama 模型作為評(píng)判標(biāo)準(zhǔn),刪除了 50% 以上被標(biāo)記為簡(jiǎn)單的數(shù)據(jù),并對(duì)剩余的較難數(shù)據(jù)集進(jìn)行了輕量級(jí) SFT 處理。XGa28資訊網(wǎng)——每日最新資訊28at.com

在隨后的在線強(qiáng)化學(xué)習(xí)階段,通過(guò)仔細(xì)選擇較難的提示,我們實(shí)現(xiàn)了性能上的飛躍。XGa28資訊網(wǎng)——每日最新資訊28at.com

此外,他們還實(shí)施了一種連續(xù)的在線強(qiáng)化學(xué)習(xí)策略,即交替訓(xùn)練模型,然后利用模型不斷過(guò)濾并只保留中等難度到較高難度的提示。事實(shí)證明,這種策略在計(jì)算量和準(zhǔn)確性的權(quán)衡方面非常有利。XGa28資訊網(wǎng)——每日最新資訊28at.com

然后,他們采用輕量級(jí) DPO 來(lái)處理與模型響應(yīng)質(zhì)量相關(guān)的拐角情況,從而有效地在模型的智能性和對(duì)話(huà)能力之間實(shí)現(xiàn)了良好的平衡。流水線架構(gòu)和帶有自適應(yīng)數(shù)據(jù)過(guò)濾功能的連續(xù)在線 RL 策略,最后造就了現(xiàn)在的 LIama 4。XGa28資訊網(wǎng)——每日最新資訊28at.com

總結(jié)來(lái)看,Llama 4 架構(gòu)的一項(xiàng)關(guān)鍵創(chuàng)新是使用交錯(cuò)注意力層,而無(wú)需位置嵌入。此外,他們還采用了注意力推理時(shí)間溫度縮放來(lái)增強(qiáng)長(zhǎng)度泛化。XGa28資訊網(wǎng)——每日最新資訊28at.com

這些他們稱(chēng)之為 iRoPE 架構(gòu),其中“i”代表“交錯(cuò)”注意力層,突出了支持“無(wú)限”上下文長(zhǎng)度的長(zhǎng)期目標(biāo),而“RoPE ”指的是大多數(shù)層中采用的旋轉(zhuǎn)位置嵌入。XGa28資訊網(wǎng)——每日最新資訊28at.com

Llama 4 Behemoth

最后,他們還透露了超大模型 Llama 4 Behemoth 一些蒸餾和訓(xùn)練細(xì)節(jié)。XGa28資訊網(wǎng)——每日最新資訊28at.com

我們開(kāi)發(fā)了一種新穎的蒸餾損失函數(shù),可通過(guò)訓(xùn)練動(dòng)態(tài)加權(quán)軟目標(biāo)和硬目標(biāo)。XGa28資訊網(wǎng)——每日最新資訊28at.com

預(yù)訓(xùn)練階段,Llama 4 Behemoth 的代碼蒸餾功能可以攤銷(xiāo)學(xué)生訓(xùn)練中使用的大部分訓(xùn)練數(shù)據(jù)計(jì)算蒸餾目標(biāo)所需的資源密集型前向傳遞的計(jì)算成本。對(duì)于納入學(xué)生訓(xùn)練的其他新數(shù)據(jù),他們?cè)?Behemoth 模型上運(yùn)行前向傳遞,以創(chuàng)建蒸餾目標(biāo)。XGa28資訊網(wǎng)——每日最新資訊28at.com

后訓(xùn)練階段,為了最大限度地提高性能,他們刪減了 95% 的 SFT 數(shù)據(jù),而小型模型只需刪減 50% 的數(shù)據(jù),以實(shí)現(xiàn)對(duì)質(zhì)量和效率的必要關(guān)注。XGa28資訊網(wǎng)——每日最新資訊28at.com

他們?cè)谶M(jìn)行輕量級(jí) SFT 后,再進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)(RL),模型的推理和編碼能力會(huì)有更顯著的提高。XGa28資訊網(wǎng)——每日最新資訊28at.com

強(qiáng)化學(xué)習(xí)方法側(cè)重于通過(guò)對(duì)策略模型進(jìn)行 pass@k 分析來(lái)抽取高難度提示,并根據(jù)提示難度的增加精心設(shè)計(jì)訓(xùn)練課程。XGa28資訊網(wǎng)——每日最新資訊28at.com

此外還發(fā)現(xiàn),在訓(xùn)練過(guò)程中動(dòng)態(tài)過(guò)濾掉優(yōu)勢(shì)為零的提示語(yǔ),并構(gòu)建包含多種能力的混合提示語(yǔ)的訓(xùn)練批次,有助于提高數(shù)學(xué)、推理和編碼的性能。最后,從各種系統(tǒng)指令中取樣對(duì)于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務(wù)中表現(xiàn)出色至關(guān)重要。XGa28資訊網(wǎng)——每日最新資訊28at.com

由于其規(guī)模空前,要為兩萬(wàn)億個(gè)參數(shù)模型擴(kuò)展 RL,還需要改造底層 RL 基礎(chǔ)設(shè)施。XGa28資訊網(wǎng)——每日最新資訊28at.com

他們優(yōu)化了 MoE 并行化的設(shè)計(jì),從而加快了迭代速度;并開(kāi)發(fā)了一個(gè)完全異步的在線 RL 訓(xùn)練框架,提高了靈活性。XGa28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)有的分布式訓(xùn)練框架會(huì)犧牲計(jì)算內(nèi)存以將所有模型堆疊在內(nèi)存中,相比之下,他們新基礎(chǔ)架構(gòu)能夠?qū)⒉煌P挽`活分配到不同 GPU 上,并根據(jù)計(jì)算速度在多個(gè)模型之間平衡資源。XGa28資訊網(wǎng)——每日最新資訊28at.com

與前幾代產(chǎn)品相比,這一創(chuàng)新使訓(xùn)練效率提高了約 10 倍。XGa28資訊網(wǎng)——每日最新資訊28at.com

One More Thing

要知道,由于昨天 DeepSeek 發(fā)了新論文,搞得奧爾特曼都坐不住了,趕緊出來(lái)發(fā)聲:XGa28資訊網(wǎng)——每日最新資訊28at.com

計(jì)劃改變:我們可能在幾周之后先發(fā)布 o3 和 o4-mini。XGa28資訊網(wǎng)——每日最新資訊28at.com

GPT-5 就在幾個(gè)月后啊~XGa28資訊網(wǎng)——每日最新資訊28at.com

但,誰(shuí)知道半路又殺出個(gè) Llama 4?!XGa28資訊網(wǎng)——每日最新資訊28at.com

前有猛虎,后有豺狼,OpenAI 你真的得加油了……XGa28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友調(diào)侃道,當(dāng)奧爾特曼一睜眼,看到 Llama 4 來(lái)了,而且 Llama 4 的成本比 GPT-4.5 降低了 3 個(gè)數(shù)量級(jí)后 ——XGa28資訊網(wǎng)——每日最新資訊28at.com

他的狀態(tài)一定是醬嬸兒的:XGa28資訊網(wǎng)——每日最新資訊28at.com

XGa28資訊網(wǎng)——每日最新資訊28at.com

以及相比 Llama,現(xiàn)在可能神秘低調(diào)的 DeepSeek,可能不知道什么時(shí)候突然就會(huì)推出 DeepSeek R2 和 V4… 同在杭州的通義千問(wèn)也干勁十足,Llama 也好 GPT 也好,基本成為平行參考了。XGa28資訊網(wǎng)——每日最新資訊28at.com

太平洋這頭,已經(jīng)開(kāi)始落地應(yīng)用和智能體了。XGa28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:XGa28資訊網(wǎng)——每日最新資訊28at.com

[1]https://www.llama.com/XGa28資訊網(wǎng)——每日最新資訊28at.com

[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/XGa28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/AIatMeta/status/1908598456144531660XGa28資訊網(wǎng)——每日最新資訊28at.com

[4]https://x.com/lmarena_ai/status/1908601011989782976XGa28資訊網(wǎng)——每日最新資訊28at.com

[5]https://x.com/IOHK_Charles/status/1908635624036590070XGa28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:白交衡宇,原標(biāo)題《LIama 4 發(fā)布重奪開(kāi)源第一!DeepSeek 同等代碼能力但參數(shù)減一半,一張 H100 就能跑,還有兩萬(wàn)億參數(shù)超大杯》XGa28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-12013-0.htmlMeta LIama 4 重奪開(kāi)源第一:DeepSeek 同等代碼能力但參數(shù)減半,一張 H100 就能跑,還有兩萬(wàn)億參數(shù)超大杯

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]

上一篇: 中科大華為發(fā)布生成式推薦大模型:昇騰 NPU 可部署,背后認(rèn)知一同公開(kāi)

下一篇: 清明假期廣西高速公路啟用 AI 治理?yè)矶拢嚎商崆?30 分鐘預(yù)測(cè)堵點(diǎn)

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
    SQL Error: select * from ***_ecms_news13 where id in(248,52,,218,135,264,94,194,193) limit 9
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
欧美欧美天天天天操| 国产精品久久久亚洲一区| 另类小说视频一区二区| 亚洲自拍偷拍综合| 国产精品色眯眯| 亚洲国产视频在线| 国产精品久久久久久久浪潮网站| 欧美mv日韩mv国产| 精品1区2区在线观看| 日韩免费高清av| 欧美日韩一区二区欧美激情| 欧美性高清videossexo| 欧美综合一区二区三区| 久久亚洲图片| 色中色一区二区| 色噜噜狠狠色综合中国| 91极品美女在线| 欧美人与z0zoxxxx视频| 欧美亚洲自拍偷拍| 欧美伦理电影网| 精品久久久久久久一区二区蜜臀| 国产婷婷色一区二区三区四区| 国产精品欧美经典| 亚洲欧美国产77777| 午夜精品福利久久久| 精彩视频一区二区三区| aaa欧美色吧激情视频| 亚洲国产电影| 色999日韩国产欧美一区二区| 欧美另类高清zo欧美| 精品国产乱码久久久久久免费| 国产婷婷色一区二区三区在线| 一区二区三区四区国产精品| 五月天一区二区| 国产综合成人久久大片91| 91丝袜呻吟高潮美腿白嫩在线观看| 国产精品豆花视频| 久久久久久久久久久一区 | 欧美日韩91| 久久精品日韩| 精品久久久久久久久久久久久久久久久 | 红桃视频国产一区| 免费在线亚洲欧美| 日韩欧美一二区| 久久精品网站免费观看| 中文字幕在线播放不卡一区| 日产国产欧美视频一区精品| 不卡的av网站| 麻豆久久婷婷| 国产性天天综合网| 亚洲第一成人在线| 成人午夜激情视频| 亚洲综合二区| 欧美成人精品高清在线播放 | 风间由美一区二区三区在线观看 | 日本黄色一区二区| 国产精品欧美一区喷水| 久久精品国产99久久6| 精品电影一区| 欧美情侣在线播放| 亚洲一二三专区| 国产成人综合网| 老司机一区二区三区| 国产亚洲成aⅴ人片在线观看| 捆绑变态av一区二区三区| 亚洲国产精品视频一区| 欧美一区二区三区精品| 亚洲综合成人在线| 韩日视频一区| 精品国产免费人成在线观看| 亚洲宅男天堂在线观看无病毒| 国产高清不卡一区| 色天天综合色天天久久| 亚洲激情综合网| 欧美一区激情| 欧美大片日本大片免费观看| 日韩福利视频导航| 亚洲精选在线| 中文字幕日本不卡| 午夜久久tv| 国产视频一区二区在线| 国产成人av一区二区三区在线 | 久久综合视频网| 黄色小说综合网站| 日本高清无吗v一区| 亚洲精品午夜久久久| 国产一区美女| 国产女主播视频一区二区| 99久久精品99国产精品| 精品久久久久久久人人人人传媒 | 8v天堂国产在线一区二区| 男男视频亚洲欧美| 久久婷婷影院| 日本亚洲免费观看| 老司机午夜精品视频| 亚洲国产乱码最新视频| a91a精品视频在线观看| 亚洲欧美日韩久久精品| 亚洲激情网址| 一区二区三区四区国产精品| 一区二区精品在线| 一区二区免费看| 亚洲尤物精选| 无码av免费一区二区三区试看| 亚洲欧洲久久| 亚洲第一精品在线| 玖玖视频精品| 国产精品中文字幕欧美| 欧美一区二区精品久久911| 成人午夜激情视频| 国产日韩欧美不卡| 亚洲国产片色| 亚洲成人免费av| 色噜噜偷拍精品综合在线| 久久99这里只有精品| 日韩欧美国产三级电影视频| 北条麻妃一区二区三区| 国产精品理论片| 国产日韩亚洲欧美精品| 男女男精品视频| 日韩欧美www| 欧美阿v一级看视频| 亚洲精品日韩专区silk| 色国产综合视频| 国产成人鲁色资源国产91色综| 国产欧美精品一区二区色综合 | 国产欧美日韩一区| 奇米一区二区三区av| 日韩欧美一区二区三区在线| 欧美777四色影| 亚洲香肠在线观看| 欧美精品1区2区| 欧美 日韩 国产一区二区在线视频 | 成人午夜免费av| 国产精品三级在线观看| 色婷婷av久久久久久久| www.亚洲色图.com| 亚洲精品成人少妇| 欧美一区二区三区不卡| 亚洲特级毛片| 激情小说亚洲一区| 国产精品电影一区二区| 色呦呦日韩精品| 99精品视频在线播放观看| 一区二区三区欧美| 制服丝袜一区二区三区| 亚洲精品国产系列| 久久国产综合精品| 欧美国产精品专区| 欧美吻胸吃奶大尺度电影| 午夜日韩激情| 三级欧美在线一区| 欧美极品aⅴ影院| 欧美亚洲国产一区二区三区va | 欧洲av一区二区嗯嗯嗯啊| 欧美精品免费观看二区| 看片的网站亚洲| 中文字幕在线一区| 欧美一级黄色片| 国产精品日韩欧美一区二区三区| 丁香一区二区三区| 婷婷一区二区三区| 中文字幕一区二区不卡| 91精品国产综合久久久久久| 亚洲在线国产日韩欧美| 91麻豆产精品久久久久久| 麻豆精品一区二区| 一区二区三区丝袜| 久久久精品人体av艺术| 欧美日韩免费观看一区三区| 亚洲欧洲视频| 女生裸体视频一区二区三区| 国产福利一区二区三区在线视频| 婷婷综合五月天| 亚洲免费观看高清完整版在线 | av电影天堂一区二区在线| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲欧美偷拍卡通变态| 久久久国际精品| 欧美va亚洲va在线观看蝴蝶网| 欧美在线你懂得| 久久激情中文| 亚洲一区二区三区四区中文| 一区二区亚洲| 欧美日韩一区二区视频在线观看| 国产精品一区二区免费不卡| 日韩国产欧美视频| 天天亚洲美女在线视频| 亚洲精品免费在线| 亚洲欧美一区二区视频| 国产精品午夜电影| 久久久久青草大香线综合精品| 日韩午夜小视频| 日韩欧美在线不卡| 欧美一区二区在线不卡| 欧美一区二区人人喊爽| 5566中文字幕一区二区电影| 日本道免费精品一区二区三区| 性一交一乱一区二区洋洋av| 国产精品久久久久久久久久妞妞|