10 月 21 日消息,復(fù)旦大學(xué)和百度聯(lián)合開(kāi)發(fā)了一款名為 Hallo2 的全新 AI 模型,該模型可以生成長(zhǎng)達(dá)數(shù)小時(shí)的 4K 分辨率人物動(dòng)畫(huà),現(xiàn)已在 GitHub 發(fā)布開(kāi)源。

Hallo2 模型建立在 latent diffusion models 的基礎(chǔ)上,相比上一代Hallo 模型的效果更好,支持了長(zhǎng)視頻生成,通過(guò)引入數(shù)據(jù)增強(qiáng)方法如 patch-drop 和高斯噪聲,有效提高了長(zhǎng)時(shí)間視頻的視覺(jué)一致性和時(shí)間連貫性。

Hallo2 還結(jié)合了向量量化生成對(duì)抗網(wǎng)絡(luò)和時(shí)間對(duì)齊技術(shù),保證了高分辨率視頻的質(zhì)量和流暢性。
此外,Hallo2將可調(diào)整的語(yǔ)義文本標(biāo)簽的肖像表情作為條件輸入。這超出了傳統(tǒng)的音頻提示,可以提高可控性并增加所生成內(nèi)容的多樣性。項(xiàng)目頁(yè)面介紹稱(chēng),Hallo2 是第一種實(shí)現(xiàn) 4K 分辨率并生成長(zhǎng)達(dá) 1 小時(shí)的音頻驅(qū)動(dòng)的人像圖像動(dòng)畫(huà)的方法,并通過(guò)文本提示進(jìn)行增強(qiáng)。
附Hallo2 項(xiàng)目地址如下:
https://fudan-generative-vision.github.io/hallo2/#/
本文鏈接:http://www.rrqrq.com/showinfo-45-9198-0.html首發(fā)根據(jù)音頻生成 4K 分辨率 1 小時(shí)長(zhǎng)視頻,復(fù)旦、百度聯(lián)手打造 AI 開(kāi)源模型 Hallo2
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]