百度近日正式推出了其蒸汽機(jī)2.0大模型,這一創(chuàng)新技術(shù)標(biāo)志著全球首個(gè)支持中文音視頻一體化生成的大模型的問(wèn)世。蒸汽機(jī)2.0在原有圖像生成視頻的基礎(chǔ)上,新增了“有聲版”,實(shí)現(xiàn)了環(huán)境音效、人聲對(duì)白及嘴型同步的全方位支持,真正做到了畫面與聲音的同步生成。
該模型的最大亮點(diǎn)在于其“形神音容”一體化生成能力,將以往需要分別完成的視頻畫面、配音效與對(duì)白同步三個(gè)步驟,整合為一次生成完成,極大地提升了效率。這一突破性的技術(shù)革新,被形象地比喻為“三步并一步”。
在價(jià)格方面,蒸汽機(jī)2.0 Turbo有聲版的定價(jià)為每5秒1.4元,據(jù)百度透露,這一價(jià)格相較于行業(yè)平均成本,大約低了三成,顯示出其強(qiáng)大的競(jìng)爭(zhēng)力。
從技術(shù)細(xì)節(jié)上看,蒸汽機(jī)2.0模型引入了更為復(fù)雜的鏡頭語(yǔ)言,如“繞鏡”等動(dòng)態(tài)運(yùn)鏡方式,同時(shí)配合大規(guī)模提示詞理解能力的升級(jí),使得用戶即使輸入簡(jiǎn)短的自然語(yǔ)言,也能生成畫面流暢、鏡頭調(diào)度自然的視頻內(nèi)容。這一改進(jìn),無(wú)疑為用戶提供了更加便捷和高效的使用體驗(yàn)。

在聲音方面,蒸汽機(jī)2.0模型不僅同步生成環(huán)境聲與人聲,還努力做到人物動(dòng)作與唇形的精準(zhǔn)匹配。該模型支持“多人對(duì)話、嘴型對(duì)齊、角色情緒同步”等多模態(tài)生成任務(wù),背后由“多模態(tài)潛在空間規(guī)劃”機(jī)制支撐,能在建模階段統(tǒng)一規(guī)劃角色身份、語(yǔ)氣、對(duì)話內(nèi)容與視覺(jué)呈現(xiàn),確保生成的視頻內(nèi)容整體感強(qiáng)、敘事一致。
百度還特別強(qiáng)調(diào)了蒸汽機(jī)2.0在中文場(chǎng)景下的適配能力,包括中文發(fā)音結(jié)構(gòu)的唇形匹配、語(yǔ)境識(shí)別與本地化音色模擬,使得生成的中文視頻內(nèi)容在語(yǔ)境下具備更高的擬真度。
在實(shí)際體驗(yàn)中,蒸汽機(jī)2.0展現(xiàn)了其多樣化的生成能力。無(wú)論是沖浪者與巨浪共舞的震撼場(chǎng)景,還是海底世界美麗魚群的細(xì)膩描繪,蒸汽機(jī)2.0都能以逼真的畫面和流暢的動(dòng)作呈現(xiàn)。同時(shí),在創(chuàng)意簡(jiǎn)單表達(dá)、極速生成的Lite版本中,雖然背景人物動(dòng)作偶爾有些僵硬,但整體畫面氛圍和細(xì)節(jié)處理仍令人印象深刻。

在有聲版體驗(yàn)中,蒸汽機(jī)2.0對(duì)于音效和對(duì)話的生成也展現(xiàn)出了不俗的實(shí)力。盡管在初次嘗試中,模型對(duì)于提示詞的理解存在些許偏差,但在調(diào)整提示詞后,模型能夠準(zhǔn)確地還原角色的臺(tái)詞、音色和語(yǔ)氣,同時(shí)嘴型同步效果也十分清晰,聲音生成與畫面的銜接自然流暢。
百度蒸汽機(jī)2.0的推出,無(wú)疑為音視頻生成領(lǐng)域帶來(lái)了新的突破。雖然聲音生成的準(zhǔn)確性和口型協(xié)調(diào)仍有待進(jìn)一步提升,但其在“形神音容”一體化生成方向上邁出的這一步,無(wú)疑為未來(lái)的技術(shù)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
舉報(bào) 0收藏 0打賞 0評(píng)論 0分享 0 更多>同類資訊科大訊飛2025上半年財(cái)報(bào)亮點(diǎn):營(yíng)收破百億,星火大模型技術(shù)再升級(jí)本報(bào)訊 (記者徐一鳴)8月21日晚間,科大訊飛股份有限公司(以下簡(jiǎn)稱“科大訊飛”)發(fā)布2025年上半年業(yè)績(jī)報(bào)告。報(bào)告期內(nèi),公司營(yíng)收首次突破百億元,達(dá)109.11億元,同比增長(zhǎng)17.01%。此外,銷售回款首次突…08-22首批科創(chuàng)創(chuàng)業(yè)人工智能ETF上報(bào),10家基金公司角逐市場(chǎng)新熱點(diǎn)證監(jiān)會(huì)網(wǎng)站顯示,8月19至8月22日,首批科創(chuàng)創(chuàng)業(yè)人工智能ETF的上報(bào)數(shù)量已達(dá)10只,基金管理人分別為華泰柏瑞基金、易方達(dá)基金、華安基金、工銀瑞信基金、國(guó)聯(lián)安基金、富國(guó)基金、永贏基金、泰康基金、景順長(zhǎng)城基金、…08-22
廣西人工智能產(chǎn)業(yè)投資基金成立,33億巨資助力科技創(chuàng)新08-22
高途上海新設(shè)心語(yǔ)智學(xué),布局AI領(lǐng)域多項(xiàng)創(chuàng)新業(yè)務(wù)08-22OpenAI高層再變動(dòng),首席人才官離職,與Meta等科技巨頭人才爭(zhēng)奪愈演愈烈08-22專家質(zhì)疑Google“五滴水”說(shuō)法:AI環(huán)境影響評(píng)估或存漏洞08-22清華團(tuán)隊(duì)發(fā)布GUAVA框架:0.1秒單照生成3D化身,引領(lǐng)3D技術(shù)革新潮流08-22谷歌Fitbit新升級(jí):AI教練來(lái)襲,Gemini模型打造專屬健康伙伴08-22谷歌AI新突破:Gemini單次回答能耗低至微波爐一秒,引領(lǐng)綠色AI革命08-22OpenAI布局印度市場(chǎng),新德里辦公室即將啟航08-22螞蟻集團(tuán)與北醫(yī)三院聯(lián)袂,共筑AI醫(yī)療創(chuàng)新實(shí)驗(yàn)室,開啟智能就醫(yī)新篇章08-22AWS首席執(zhí)行官:AI無(wú)法輕易取代初級(jí)員工,重視人才培養(yǎng)是關(guān)鍵08-22OpenAI首席人力官Julia Villagra閃電離職,上任不足半年引關(guān)注08-22DeepSeek-V3.1發(fā)布:采用UE8M0 FP8精度,專為下一代國(guó)產(chǎn)芯片設(shè)計(jì)08-22谷歌Gemini大模型能耗揭秘:每次回答僅耗微波爐1秒電量08-22點(diǎn)擊查看更多 +全站最新
TCL科技蟬聯(lián)《財(cái)富》中國(guó)科技50強(qiáng),以創(chuàng)新引領(lǐng)全球顯示技術(shù)新篇章
魅族22新機(jī)延期引熱議,高管坦言:追求完美致傷害品牌,9月中上旬發(fā)布
iPhone 17系列新爆料:TechWoven保護(hù)殼及配置詳情搶先看
梅西百貨攜手亞馬遜廣告,零售廣告領(lǐng)域?qū)⒂瓉?lái)怎樣變革?
中國(guó)超市百?gòu)?qiáng)榜出爐:行業(yè)洗牌加劇,盒馬領(lǐng)跑胖東來(lái)服務(wù)獲贊卻未進(jìn)前十
Meta百億云約牽動(dòng)AI戰(zhàn)局,云端巨頭新較量即將上演?熱門內(nèi)容
百度蒸汽機(jī)2.0有聲版體驗(yàn):鐘馗開口,音畫同步效果初顯
廣西人工智能產(chǎn)業(yè)投資基金成立,33億巨資助力科技創(chuàng)新
高途上海新設(shè)心語(yǔ)智學(xué),布局AI領(lǐng)域多項(xiàng)創(chuàng)新業(yè)務(wù)
vivo三十周年:發(fā)布輕便MR頭顯,影像生態(tài)戰(zhàn)略全面革新
霄云科技發(fā)布銀河存儲(chǔ),專為AI場(chǎng)景打造,重塑企業(yè)級(jí)存儲(chǔ)性能標(biāo)桿
中國(guó)移動(dòng)安徽公司:信息技術(shù)引領(lǐng)低空經(jīng)濟(jì),打造城市運(yùn)行新引擎
本文鏈接:http://www.rrqrq.com/showinfo-45-26794-0.html百度蒸汽機(jī)2.0有聲版體驗(yàn):鐘馗開口,音畫同步效果初顯
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com