4 月 15 日消息,智譜昨日(4 月 14 日)發(fā)布博文,宣布推出新一代 GLM-4-32B-0414 系列模型,320 億參數(shù),效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3 / R1 系列,且支持非常友好的本地部署特性。
該系列模型共有 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414 四款模型。
GLM-4-32B-Base-0414
在預(yù)訓(xùn)練階段,該模型采用 15T 高質(zhì)量數(shù)據(jù),其中包含大量推理類的合成數(shù)據(jù),這為后續(xù)的強(qiáng)化學(xué)習(xí)擴(kuò)展打下了基礎(chǔ)。

在后訓(xùn)練階段,除了針對(duì)對(duì)話場(chǎng)景進(jìn)行了人類偏好對(duì)齊外,團(tuán)隊(duì)還通過(guò)拒絕采樣和強(qiáng)化學(xué)習(xí)等技術(shù)強(qiáng)化了模型在指令遵循、工程代碼、函數(shù)調(diào)用方面的效果,加強(qiáng)了智能體任務(wù)所需的原子能力。
GLM-4-32B-0414 在工程代碼、Artifacts 生成、函數(shù)調(diào)用、搜索問(wèn)答及報(bào)告等方面都取得了不錯(cuò)的效果,部分 Benchmark 甚至可以媲美更大規(guī)模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。

GLM-Z1-32B-0414
該模型是具有深度思考能力的推理模型,在 GLM-4-32B-0414 的基礎(chǔ)上,通過(guò)冷啟動(dòng)和擴(kuò)展強(qiáng)化學(xué)習(xí),以及在數(shù)學(xué)、代碼和邏輯等任務(wù)上對(duì)模型的進(jìn)一步訓(xùn)練得到的。

相對(duì)于基礎(chǔ)模型,GLM-Z1-32B-0414 顯著提升了數(shù)理能力和解決復(fù)雜任務(wù)的能力。在訓(xùn)練的過(guò)程中,該團(tuán)隊(duì)還引入了基于堆棧排序反饋的通用強(qiáng)化學(xué)習(xí),進(jìn)一步增強(qiáng)了模型的通用能力。
GLM-Z1-Rumination-32B-0414
該模型是具有沉思能力的深度推理模型(對(duì)標(biāo) Open AI 的 Deep Research)。
沉思模型通過(guò)更長(zhǎng)時(shí)間的深度思考來(lái)解決更開放和復(fù)雜的問(wèn)題(例如:撰寫兩個(gè)城市 AI 發(fā)展對(duì)比情況,以及未來(lái)的發(fā)展規(guī)劃),結(jié)合搜索工具處理復(fù)雜任務(wù),并經(jīng)過(guò)利用多種規(guī)則型獎(jiǎng)勵(lì)來(lái)指導(dǎo)和擴(kuò)展端到端強(qiáng)化學(xué)習(xí)訓(xùn)練得到。
GLM-Z1-9B-0414
這是一個(gè)開源 9B 小尺寸模型,在數(shù)學(xué)推理和通用任務(wù)中依然展現(xiàn)出極為優(yōu)秀的能力,其整體表現(xiàn)已處于同尺寸開源模型中的領(lǐng)先水平。

測(cè)試結(jié)果
GLM-4 系列在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。例如,在 IFEval 指令遵循測(cè)試中得分 87.6;在 TAU-Bench 任務(wù)自動(dòng)化測(cè)試中,零售場(chǎng)景得分 68.7,航空?qǐng)鼍暗梅?51.2;在 SimpleQA 搜索增強(qiáng)問(wèn)答測(cè)試中得分 88.1。
模型IFEvalBFCL-v3 (Overall)BFCL-v3 (MultiTurn)TAU-Bench (Retail)TAU-Bench (Airline)SimpleQAHotpotQAQwen2.5-Max85.650.930.558.322.079.052.8GPT-4o-112081.969.641.062.846.082.863.9DeepSeek-V3-032483.466.235.860.732.482.654.6DeepSeek-R184.357.512.433.037.383.963.1GLM-4-32B-041487.669.641.568.751.288.163.8代碼修復(fù)方面,GLM-4 在 SWE-bench 測(cè)試中的成功率達(dá) 33.8%。采用 MIT 許可的 GLM-4 降低了計(jì)算成本,為研究和企業(yè)提供了高性能 AI 解決方案。
模型框架SWE-bench VerifiedSWE-bench Verified miniGLM-4-32B-0414Moatless[1]33.838.0GLM-4-32B-0414Agentless[2]30.734.0GLM-4-32B-0414OpenHands[3]27.228.0附上參考地址
GLM-4-0414 系列模型
THUDM Releases GLM 4: A 32B Parameter Model Competing Head-to-Head with GPT-4o and DeepSeek-V3
本文鏈接:http://www.rrqrq.com/showinfo-45-12317-0.html智譜發(fā)布新一代開源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 R1
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 人工智能開發(fā)平臺(tái) Hugging Face 收購(gòu) Pollen Robotics,進(jìn)軍人形機(jī)器人市場(chǎng)