8 月 16 日消息,研究機(jī)構(gòu) Ai2 現(xiàn)已在 GitHub 開(kāi)源了旗下 MolmoAct 機(jī)器人“行動(dòng)推理模型”(Action Reasoning Model,ARM)模型,該模型主要運(yùn)用于具身機(jī)器人場(chǎng)景,號(hào)稱可以解決機(jī)器人在三維空間中的動(dòng)作規(guī)劃與理解問(wèn)題。
據(jù)介紹,與傳統(tǒng)僅依賴文字描述推導(dǎo)動(dòng)作的視覺(jué)語(yǔ)言行動(dòng)模型(VLA)不同,MolmoAct 旨在克服語(yǔ)言難以完整表達(dá)三維環(huán)境深度和距離關(guān)系的不足。因此 MolmoAct 在第一階段會(huì)首先生成由 VQVAE 預(yù)訓(xùn)練得到的空間感知 Token,相應(yīng) Token 同時(shí)包含幾何結(jié)構(gòu)與位置信息,可用于評(píng)估物體間的距離,并為后續(xù)規(guī)劃提供基礎(chǔ)。

而在第二階段,模型會(huì)在圖像空間中生成一系列路徑點(diǎn),作為任務(wù)的中間目標(biāo),直觀展示動(dòng)作展開(kāi)的順序。第三階段,路徑點(diǎn)會(huì)被轉(zhuǎn)化為機(jī)器人末端執(zhí)行器或機(jī)械爪的低層馬達(dá)指令,并根據(jù)機(jī)器人運(yùn)動(dòng)學(xué)配置進(jìn)行動(dòng)作解碼。

研究團(tuán)隊(duì)指出,在名為 SimplerEnv 的模擬測(cè)試環(huán)境中,MolmoAct-7B 在訓(xùn)練集未見(jiàn)過(guò)的任務(wù)中達(dá)到了 72.1% 的成功率,優(yōu)于 Physical Intelligence、谷歌、微軟和英偉達(dá)等實(shí)驗(yàn)室的對(duì)照模型。在 LIBERO 模擬平臺(tái)的多任務(wù)與終身學(xué)習(xí)測(cè)試中,經(jīng)過(guò)高效參數(shù)微調(diào),平均成功率提升至 86.6%。同時(shí),相比業(yè)界 AI 機(jī)器人大模型,MolmoAct 的訓(xùn)練成本更低:預(yù)訓(xùn)練僅使用了 2630 萬(wàn)樣本和 256 顆 H100 GPU,大約 1 天即可完成;微調(diào)則只需 64 顆 H100,約 2 小時(shí)即可完成。

此外,為降低機(jī)器人操作風(fēng)險(xiǎn)并提升可解釋性,MolmoAct 在執(zhí)行動(dòng)作前會(huì)將內(nèi)部規(guī)劃的運(yùn)動(dòng)軌跡疊加到輸入圖像上,用戶可以直接查看并修正動(dòng)作方案。同時(shí),用戶還可以通過(guò)平板等設(shè)備使用手繪方式標(biāo)注目標(biāo)姿態(tài)或路徑,模型會(huì)即時(shí)整合這些標(biāo)注進(jìn)行一系列調(diào)整。
目前,Ai2 已在 GitHub 同步開(kāi)源了 MolmoAct-7B 的完整資源(https://github.com/allenai/MolmoAct),官方強(qiáng)調(diào),這些資源與工具可以幫助其他研究團(tuán)隊(duì)在不同機(jī)器人平臺(tái)和任務(wù)中充分驗(yàn)證與優(yōu)化。
本文鏈接:http://www.rrqrq.com/showinfo-45-26907-0.html可實(shí)現(xiàn)三重空間感知:Ai2 開(kāi)源具身機(jī)器人 AI 模型 MolmoAct
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Meta繼續(xù)高薪挖角,蘋果AI團(tuán)隊(duì)第六名高管跳槽至Meta
下一篇: 谷歌開(kāi)源 Gemma 家族最輕量模型 Gemma 3 270M:2.7 億參數(shù)可靈活用于 手機(jī)平板端側(cè)及 Web 環(huán)境