8 月 26 日消息,今日晚間,阿里云宣布開源全新多模態(tài)視頻生成模型通義萬相 Wan2.2-S2V,僅需一張靜態(tài)圖片和一段音頻,即可生成面部表情自然、口型一致、肢體動(dòng)作絲滑的電影級(jí)數(shù)字人視頻。
據(jù)介紹,該模型單次生成的視頻時(shí)長可達(dá)分鐘級(jí),大幅提升數(shù)字人直播、影視制作、AI 教育等行業(yè)的視頻創(chuàng)作效率。
目前,Wan2.2-S2V 可驅(qū)動(dòng)真人、卡通、動(dòng)物、數(shù)字人等類型圖片,并支持肖像、半身以及全身等任意畫幅,上傳一段音頻后,模型就能讓圖片中的主體形象完成說話、唱歌和表演等動(dòng)作。
Wan2.2-S2V 還支持文本控制,輸入 Prompt 后還可對(duì)視頻畫面進(jìn)行控制,讓視頻主體的運(yùn)動(dòng)和背景的變化更豐富。
例如,上傳一張人物彈鋼琴的照片、一段歌曲和一段文字,Wan2.2-S2V 即可生成一段完整、聲情并茂的鋼琴演奏視頻,不僅能保證人物形象和原圖一致,其面部表情和嘴部動(dòng)作還能與音頻對(duì)齊,視頻人物的手指手型、力度、速度也能完美匹配音頻節(jié)奏。
據(jù)介紹,Wan2.2-S2V 采用了基于通義萬相視頻生成基礎(chǔ)模型能力,融合了文本引導(dǎo)的全局運(yùn)動(dòng)控制和音頻驅(qū)動(dòng)的細(xì)粒度局部運(yùn)動(dòng),實(shí)現(xiàn)了復(fù)雜場景的音頻驅(qū)動(dòng)視頻生成;同時(shí)引入 AdaIN 和 CrossAttention 兩種控制機(jī)制,實(shí)現(xiàn)了更準(zhǔn)確更動(dòng)態(tài)的音頻控制效果;為保障長視頻生成效果,Wan2.2-S2V 通過層次化幀壓縮技術(shù),大幅降低了歷史幀的 Token 數(shù)量,通過該方式將 motion frames (注:歷史參考幀) 的長度從數(shù)幀拓展到 73 幀,從而實(shí)現(xiàn)了穩(wěn)定的長視頻生成效果。
在模型訓(xùn)練上,通義團(tuán)隊(duì)構(gòu)建了超 60 萬個(gè)片段的音視頻數(shù)據(jù)集,通過混合并行訓(xùn)練進(jìn)行全參數(shù)化訓(xùn)練,充分挖掘了模型的性能。同時(shí)通過多分辨率訓(xùn)練、支持模型多分辨率的推理,可支持不同分辨率場景的視頻生成需求,如豎屏短視頻、橫屏影視劇。
實(shí)測數(shù)據(jù)顯示,Wan2.2-S2V 在 FID(視頻質(zhì)量,越低越好)、EFID(表情真實(shí)度,越低越好)、CSIM(身份一致性,越高越好)等核心指標(biāo)上取得了同類模型最好的成績。
阿里云表示,自今年 2 月以來,通義萬相已連續(xù)開源文生視頻、圖生視頻、首尾幀生視頻、全能編輯、音頻生視頻等多款模型,在開源社區(qū)和三方平臺(tái)的下載量已超 2000 萬。
開源地址:
GitHub:https://github.com/Wan-Video/Wan2.2
魔搭社區(qū):https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
體驗(yàn)地址:
通義萬相官網(wǎng):https://tongyi.aliyun.com/ wanxiang / generate
阿里云百煉:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
本文鏈接:http://www.rrqrq.com/showinfo-45-27068-0.html一張圖即可生成電影級(jí)數(shù)字人視頻:阿里云通義萬相 Wan2.2-S2V 視頻生成模型宣布開源
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com