4 月 21 日消息,昆侖萬維今日正式發(fā)布并開源 SkyReels-V2—— 全球首個(gè)使用擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架的無限時(shí)長電影生成模型,其通過結(jié)合多模態(tài)大語言模型(MLLM)、多階段預(yù)訓(xùn)練(Multi-stage Pretraining)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)和擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架來實(shí)現(xiàn)協(xié)同優(yōu)化。官方表示,該模型將突破視頻生成技術(shù)邊界,開啟“無限時(shí)長電影生成”新時(shí)代。
附開源地址如下:
SkyReels-V2GitHub 地址:https://github.com/SkyworkAI/SkyReels-V2
論文地址:https://arxiv.org/abs/2504.13074
SkyReels-A2HuggingFace 地址:https://huggingface.co/ Skywork / SkyReels-A2
GitHub 地址:https://github.com/SkyworkAI/SkyReels-A2
論文地址:https://arxiv.org/ pdf/2504.02436
據(jù)介紹,現(xiàn)有技術(shù)在提升穩(wěn)定的視覺質(zhì)量時(shí)往往犧牲運(yùn)動(dòng)動(dòng)態(tài)效果,為了優(yōu)先考慮高分辨率而限制視頻時(shí)長(通常為 5-10 秒),并且由于通用多模態(tài)大語言模型(MLLM)無法解讀電影語法(如鏡頭構(gòu)圖、演員表情和攝像機(jī)運(yùn)動(dòng)),導(dǎo)致鏡頭感知生成能力不足。這些相互關(guān)聯(lián)的限制阻礙了長視頻的逼真合成和專業(yè)電影風(fēng)格的生成。
為此應(yīng)運(yùn)而生的 SkyReels-V2 則在技術(shù)上實(shí)現(xiàn)了突破,還提供了多種有用的應(yīng)用場(chǎng)景,包括故事生成、圖生視頻、運(yùn)鏡專家和多主體一致性視頻生成(SkyReels-A2)。
SkyReels-V2 現(xiàn)已支持生成 30 秒、40 秒的視頻,且具備生成高運(yùn)動(dòng)質(zhì)量、高一致性、高保真視頻的能力。
官方表示,SkyReels-V2 在運(yùn)動(dòng)動(dòng)態(tài)方面表現(xiàn)優(yōu)異,能夠生成流暢且逼真的視頻內(nèi)容,滿足電影制作中對(duì)高質(zhì)量運(yùn)動(dòng)動(dòng)態(tài)的需求。
本文鏈接:http://www.rrqrq.com/showinfo-45-12530-0.html昆侖萬維開源 SkyReels-V2 模型,開啟生成“無限時(shí)長”視頻時(shí)代
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]