6 月 4 日消息,科技媒體 The Decoder 昨日(6 月 3 日)發(fā)布博文,報(bào)道稱谷歌 DeepMind 團(tuán)隊(duì)攜手布朗大學(xué),為視頻生成模型開發(fā)“力提示”(force prompting)技術(shù),可以在無需 3D 模型或物理引擎的情況下,生成逼真的運(yùn)動(dòng)效果。
用戶只需指定力的方向和強(qiáng)度,就能操控 AI 生成的視頻內(nèi)容,該技術(shù)支持全局力(如風(fēng)吹過整個(gè)畫面)和局部力(如特定點(diǎn)的敲擊)兩種力量。這些力以矢量場形式輸入系統(tǒng),隨后被轉(zhuǎn)化為自然流暢的運(yùn)動(dòng)。

研究團(tuán)隊(duì)基于 CogVideoX-5B-I2V 視頻模型,加入 ControlNet 模塊處理物理控制數(shù)據(jù),信號(hào)通過 Transformer 架構(gòu)生成視頻,每段視頻包含 49 幀,僅用 4 臺(tái) Nvidia A100 GPU 訓(xùn)練一天完成。

訓(xùn)練數(shù)據(jù)完全為合成:全局力數(shù)據(jù)包括 1.5 萬段不同風(fēng)力下旗幟飄動(dòng)的視頻;局部力數(shù)據(jù)則有 1.2 萬段滾動(dòng)球體和 1.1 萬段花朵受沖擊反應(yīng)的視頻。

在生成過程中,文本描述中在加入“風(fēng)”或“氣泡”等物理術(shù)語后,模型會(huì)自動(dòng)建立正確的力與運(yùn)動(dòng)關(guān)系。訓(xùn)練樣本結(jié)合文本提示、起始圖像和物理力(全局力為完整矢量場,局部力為方向、位置和強(qiáng)度的動(dòng)態(tài)信號(hào)),并通過隨機(jī)化背景、光線和視角增加多樣性。

盡管訓(xùn)練數(shù)據(jù)有限,模型展現(xiàn)出強(qiáng)大的泛化能力,能適應(yīng)新物體、材質(zhì)和場景,甚至掌握簡單物理規(guī)則,如相同力下,輕物移動(dòng)距離比重物遠(yuǎn)。

用戶測試中,“力提示”技術(shù)在運(yùn)動(dòng)匹配度和真實(shí)感上優(yōu)于純文本或運(yùn)動(dòng)路徑控制的基準(zhǔn)模型,甚至超越依賴真實(shí)物理模擬的 PhysDreamer(僅在圖像質(zhì)量上稍遜)。然而,復(fù)雜場景中仍存缺陷,例如煙霧有時(shí)無視風(fēng)力,人體手臂偶爾像布料般移動(dòng)。
DeepMind 首席執(zhí)行官 Demis Hassabis 近期表示,新一代 AI 視頻模型(如 Veo 3)正逐步理解物理規(guī)則,不再局限于文本或圖像處理,而是開始表征世界的物理結(jié)構(gòu)。他認(rèn)為這是通向更通用 AI 的關(guān)鍵一步,未來 AI 可能不再僅僅依賴數(shù)據(jù),而是能在模擬環(huán)境中通過經(jīng)驗(yàn)學(xué)習(xí)。
附上參考地址
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals論文
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control SignalsGitHub頁面
本文鏈接:http://www.rrqrq.com/showinfo-45-13425-0.html無需 3D 模型 物理引擎:谷歌 DeepMind 聯(lián)合開發(fā)力提示技術(shù),AI 生成視頻可模擬真實(shí)運(yùn)動(dòng)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 英偉達(dá)市值飆升,再度問鼎全球上市公司市值榜首!
下一篇: 消息稱階躍星辰 C 端產(chǎn)品“冒泡鴨”停運(yùn),業(yè)務(wù)重心轉(zhuǎn)向終端 Agent