8 月 26 日消息,今日晚間,阿里云宣布開源全新多模態視頻生成模型通義萬相 Wan2.2-S2V,僅需一張靜態圖片和一段音頻,即可生成面部表情自然、口型一致、肢體動作絲滑的電影級數字人視頻。
據介紹,該模型單次生成的視頻時長可達分鐘級,大幅提升數字人直播、影視制作、AI 教育等行業的視頻創作效率。

目前,Wan2.2-S2V 可驅動真人、卡通、動物、數字人等類型圖片,并支持肖像、半身以及全身等任意畫幅,上傳一段音頻后,模型就能讓圖片中的主體形象完成說話、唱歌和表演等動作。
Wan2.2-S2V 還支持文本控制,輸入 Prompt 后還可對視頻畫面進行控制,讓視頻主體的運動和背景的變化更豐富。
例如,上傳一張人物彈鋼琴的照片、一段歌曲和一段文字,Wan2.2-S2V 即可生成一段完整、聲情并茂的鋼琴演奏視頻,不僅能保證人物形象和原圖一致,其面部表情和嘴部動作還能與音頻對齊,視頻人物的手指手型、力度、速度也能完美匹配音頻節奏。

據介紹,Wan2.2-S2V 采用了基于通義萬相視頻生成基礎模型能力,融合了文本引導的全局運動控制和音頻驅動的細粒度局部運動,實現了復雜場景的音頻驅動視頻生成;同時引入 AdaIN 和 CrossAttention 兩種控制機制,實現了更準確更動態的音頻控制效果;為保障長視頻生成效果,Wan2.2-S2V 通過層次化幀壓縮技術,大幅降低了歷史幀的 Token 數量,通過該方式將 motion frames (注:歷史參考幀) 的長度從數幀拓展到 73 幀,從而實現了穩定的長視頻生成效果。
在模型訓練上,通義團隊構建了超 60 萬個片段的音視頻數據集,通過混合并行訓練進行全參數化訓練,充分挖掘了模型的性能。同時通過多分辨率訓練、支持模型多分辨率的推理,可支持不同分辨率場景的視頻生成需求,如豎屏短視頻、橫屏影視劇。

實測數據顯示,Wan2.2-S2V 在 FID(視頻質量,越低越好)、EFID(表情真實度,越低越好)、CSIM(身份一致性,越高越好)等核心指標上取得了同類模型最好的成績。
阿里云表示,自今年 2 月以來,通義萬相已連續開源文生視頻、圖生視頻、首尾幀生視頻、全能編輯、音頻生視頻等多款模型,在開源社區和三方平臺的下載量已超 2000 萬。
開源地址:
GitHub:https://github.com/Wan-Video/Wan2.2
魔搭社區:https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
體驗地址:
通義萬相官網:https://tongyi.aliyun.com/ wanxiang / generate
阿里云百煉:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
本文鏈接:http://www.rrqrq.com/showinfo-45-27068-0.html一張圖即可生成電影級數字人視頻:阿里云通義萬相 Wan2.2-S2V 視頻生成模型宣布開源
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com