作為人工智能與機(jī)器人交叉領(lǐng)域的核心方向,具身智能正引領(lǐng)全球科技變革。其中,機(jī)器人大模型作為“智能中樞”,正在推動(dòng)機(jī)器人突破單一任務(wù)限制,向復(fù)雜環(huán)境下的自主學(xué)習(xí)與進(jìn)化邁進(jìn)。近期,中美兩國具身智能企業(yè)幾乎同步開源模型,標(biāo)志著這一領(lǐng)域的技術(shù)生態(tài)進(jìn)入爆發(fā)期。
9月8日,中國自變量機(jī)器人公司開源了具身模型WALL-OSS;次日,美國Physical Intelligence(PI)公司也發(fā)布了π?.?模型。這一“巧合”引發(fā)行業(yè)熱議,被視為具身智能邁向成熟的關(guān)鍵信號。回顧語言大模型發(fā)展路徑,從2018年開源社區(qū)初步探索,到2020年ChatGPT-3引發(fā)全球關(guān)注,技術(shù)迭代用了三年。如今,機(jī)器人大模型是否也站在了“GPT-3時(shí)刻”的門檻上?
在近期的一場技術(shù)對話中,自變量機(jī)器人CTO王昊與PI研究員柯麗一鳴(π?、π?.?論文作者)深入探討了這一話題。他們認(rèn)為,2025年機(jī)器人模型領(lǐng)域最顯著的突破是“泛化能力”與“長程任務(wù)”的突破。柯麗一鳴以疊衣服任務(wù)為例:“過去二十年,機(jī)器人疊衣服始終面臨挑戰(zhàn),因?yàn)橐挛锺薨櫋⒄郫B順序的多樣性遠(yuǎn)超想象。但到2025年,模型已能將π?.?部署到陌生家庭環(huán)境中,完成抓取、移動(dòng)等基礎(chǔ)操作,盡管表現(xiàn)不完美,卻展現(xiàn)出類似人類的適應(yīng)性。”
王昊進(jìn)一步指出,通用機(jī)器人基礎(chǔ)模型的發(fā)展,使機(jī)器人從“單任務(wù)專家”轉(zhuǎn)向“多任務(wù)學(xué)習(xí)者”。例如,2023年前,機(jī)器人需針對每個(gè)任務(wù)單獨(dú)優(yōu)化;如今,統(tǒng)一模型可同時(shí)學(xué)習(xí)數(shù)百種任務(wù),優(yōu)化目標(biāo)從“單一任務(wù)極致”轉(zhuǎn)向“全局任務(wù)平均成功率”。這種指數(shù)效應(yīng)讓機(jī)器人能處理包含連續(xù)步驟、需多步推理的復(fù)雜任務(wù)(如整理餐桌、布置餐具),成為行業(yè)最令人興奮的現(xiàn)象。
然而,泛化能力的提升仍面臨三大挑戰(zhàn)。首先是物理世界的“長尾效應(yīng)”:光照變化、桌布褶皺、透明物體反光等微小擾動(dòng),可能導(dǎo)致任務(wù)失敗。人類能憑直覺適應(yīng),但依賴數(shù)據(jù)驅(qū)動(dòng)的AI模型仍需突破。其次是長程任務(wù)中的誤差累積:微小擾動(dòng)可能像滾雪球一樣放大,最終導(dǎo)致任務(wù)失敗。王昊強(qiáng)調(diào),需構(gòu)建理解物理常識(shí)的模型基礎(chǔ),讓機(jī)器人具備空間推理與因果推理能力。最后是數(shù)據(jù)質(zhì)量與數(shù)量的平衡:高質(zhì)量數(shù)據(jù)需精心設(shè)計(jì),但追求數(shù)量時(shí)難以兼顧細(xì)節(jié);低質(zhì)量數(shù)據(jù)則可能影響模型性能。
數(shù)據(jù)采集的“真機(jī)維護(hù)”問題也被頻繁提及。柯麗一鳴笑稱:“做機(jī)器人研究,每天都在擰螺絲。”她回憶,早期研究時(shí),硬件故障頻發(fā),新人常因維修壓力而放棄。如今,盡管硬件穩(wěn)定性提升,但真機(jī)維護(hù)仍是門檻。王昊補(bǔ)充道,機(jī)器人數(shù)據(jù)采集受限于硬件場地、操作員效率,成本高昂。為此,行業(yè)探索了多種解決方案:低成本本體、穿戴式傳感器、人類視頻數(shù)據(jù)等。其中,人類視頻數(shù)據(jù)規(guī)模大、成本低,但僅能提供高級語義理解與任務(wù)規(guī)劃,難以直接生成動(dòng)作級數(shù)據(jù)。
在模型架構(gòu)上,中美企業(yè)呈現(xiàn)出不同路徑。自變量機(jī)器人主張“端到端”訓(xùn)練,將語言、視覺、動(dòng)作模態(tài)統(tǒng)一表征,避免分層導(dǎo)致的信息損失。王昊解釋:“訓(xùn)練時(shí),模型可同時(shí)學(xué)習(xí)理解推理與動(dòng)作生成;部署時(shí),將動(dòng)作部分壓縮蒸餾,語言推理部分放在云端,通過梯度回傳更新參數(shù)。”而PI則保持開放態(tài)度,柯麗一鳴認(rèn)為:“當(dāng)前機(jī)器人大模型尚未達(dá)到GPT-2水平,數(shù)據(jù)驅(qū)動(dòng)是核心,但具體架構(gòu)(如雙系統(tǒng)分離或端到端)并非首要問題。”
商業(yè)化方面,中美企業(yè)展現(xiàn)出差異化策略。美國企業(yè)傾向于“自上而下”,優(yōu)先構(gòu)建超大規(guī)模通用模型,再探索應(yīng)用場景。這得益于其算力優(yōu)勢——頂級芯片與大規(guī)模算力集群集中在美國。而中國企業(yè)則采取“上下結(jié)合”的雙軌路徑:一方面迭代通用基礎(chǔ)模型,另一方面在養(yǎng)老、公共服務(wù)等泛化場景中落地,形成數(shù)據(jù)飛輪。王昊強(qiáng)調(diào):“必須先有大而通用的基礎(chǔ),才能實(shí)現(xiàn)小而精的垂直部署。”柯麗一鳴則觀察到,中國制造業(yè)的硬件需求與場景優(yōu)勢,為機(jī)器人商業(yè)化提供了獨(dú)特土壤。
對于家用機(jī)器人的落地時(shí)間,兩位專家給出不同預(yù)測。王昊認(rèn)為,5年內(nèi)機(jī)器人可進(jìn)入家庭,完成廚房簡單任務(wù)(如洗碗、切菜),但需人類協(xié)作;柯麗一鳴則保守估計(jì)5-10年,她以掃地機(jī)器人為例:“早期產(chǎn)品不完美,但用戶明確其能力邊界,這種模式值得借鑒。”他們一致認(rèn)為,機(jī)器人需跨越數(shù)據(jù)、算法、供應(yīng)鏈、商業(yè)模式等多重門檻,才能真正實(shí)現(xiàn)規(guī)模化應(yīng)用。
本文鏈接:http://www.rrqrq.com/showinfo-26-181822-0.html具身智能開源模型加速發(fā)展,中美同步探索下通用機(jī)器人未來可期
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 百元檔耳機(jī)新選擇:虹覓Air2小云夾,佩戴舒適音質(zhì)佳,游戲續(xù)航兩不誤
下一篇: 臺(tái)積電先進(jìn)封裝“提速”應(yīng)對AI熱潮,與NVIDIA等共迎先進(jìn)封裝技術(shù)高需求