當(dāng)前位置：首頁 > 元宇宙 > AI

字節(jié)跳動(dòng)發(fā)布豆包視頻生成模型，這效果讓我分不清 AI 與現(xiàn)實(shí)

來源：責(zé)編：時(shí)間：2024-10-01 17:06:13 142觀看

導(dǎo)讀 9 月 24 日，火山引擎 AI 創(chuàng)新巡展在深圳舉辦，帶來了豆包大模型的最新進(jìn)展。豆包大模型家族迎來了新成員。具體來說，火山引擎全新推出了豆包?視頻生成模型，以及豆包音樂模型、同聲傳譯模型，同時(shí)還升級了通用語言模

9 月 24 日，火山引擎 AI 創(chuàng)新巡展在深圳舉辦，帶來了豆包大模型的最新進(jìn)展。豆包大模型家族迎來了新成員。

具體來說，火山引擎全新推出了豆包?視頻生成模型，以及豆包音樂模型、同聲傳譯模型，同時(shí)還升級了通用語言模型、文生圖模型、語音模型，不斷增強(qiáng)各類模態(tài)以及規(guī)模化的調(diào)用量，讓豆包大模型“更強(qiáng)模型、更低價(jià)格、更易落地”的優(yōu)勢持續(xù)凸顯。此外，多家行業(yè)客戶也在會(huì)上分享了大模型應(yīng)用的實(shí)踐經(jīng)驗(yàn)。

本次豆包帶來的一系列大模型進(jìn)展中，最引人關(guān)注的，莫過于全新豆包視頻生成模型，它能夠帶來影視級視覺感受的視頻生成效果，全面推動(dòng)豆包大模型 AIGC 應(yīng)用創(chuàng)新的步伐。

在豆包視頻生成模型正式推出之前，可能不少同學(xué)已經(jīng)使用過市面上一些 AI 生成視頻的產(chǎn)品。小編此前也做過體驗(yàn)，總體來說這些大模型生成的視頻往往有比較明顯的“AI 痕跡”，無論是視頻的內(nèi)容邏輯、畫面自然度等方面，都有待提升，而且對語義指令的理解也存在問題，經(jīng)常會(huì)生成一些不符合指令要求的視頻。

而這些問題在豆包視頻生成模型中，都得到了針對性的解決，同時(shí)也成為其不可忽視的產(chǎn)品亮點(diǎn)。

首先，豆包視頻生成模型擁有精準(zhǔn)的語義理解能力，支持多動(dòng)作多主體交互的內(nèi)容生成。相比大部分視頻生成模型只能完成簡單指令單一動(dòng)作，豆包視頻生成模型可以遵從更復(fù)雜的 prompt，解鎖時(shí)序性多拍動(dòng)作指令與多個(gè)主體間的交互能力，指哪兒打哪兒，為你打開想象力的大門。

比如下面這則視頻，兩位主角的動(dòng)作、表情都非常自然，包括馬兒看起來也很真實(shí)。

還有下面這段視頻，首先女主的表情十分細(xì)膩?zhàn)匀唬?dāng)男主入畫時(shí)，女主緩緩戴上墨鏡，和男主的動(dòng)作交互也非常真實(shí)，看起來似乎是有些抗拒，將復(fù)雜細(xì)膩的微動(dòng)作都呈現(xiàn)了出來，從而讓視頻呈現(xiàn)出強(qiáng)烈的“故事感”。

其次，豆包視頻生成模型支持強(qiáng)大動(dòng)態(tài)與炫酷運(yùn)鏡，讓 AI 生成視頻告別 PPT 動(dòng)畫質(zhì)感。針對高動(dòng)態(tài)的復(fù)雜場景視頻、多樣化表達(dá)的文本指令，豆包視頻生成模型基于高效的 DiT 融合計(jì)算單元，更充分地壓縮編碼視頻與文本，使生成視頻的動(dòng)作更靈動(dòng)，鏡頭更多樣，表情更豐富，細(xì)節(jié)更豐滿。

并且生成的視頻可同時(shí)存在主體的大動(dòng)態(tài)與鏡頭的炫酷切換。支持變焦、環(huán)繞、平搖、縮放，目標(biāo)跟隨等超多鏡頭語言，靈活控制視角。

例如下面這則視頻，畫面中兩位主角前后景的變焦切換非常自然，感覺就像是真實(shí)的攝影師在水中拍攝的畫面，而不像以往 AI 生成視頻那樣呆板生硬。

在內(nèi)容邏輯方面，豆包視頻生成模型還支持一致性多鏡頭生成，能夠 10 秒講一個(gè)完整的故事。它采用全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法，成功攻克了多鏡頭切換時(shí)難以保持一致性的困擾，在一個(gè) prompt 的多個(gè)鏡頭切換時(shí)，保持主體、風(fēng)格、氛圍和邏輯的一致性，實(shí)現(xiàn)導(dǎo)演自由。

例如下面這則動(dòng)畫視頻，三個(gè)鏡頭組成了一個(gè)簡短易懂的場景故事，看起來就像是一個(gè)正常的動(dòng)畫電影中截取的片段。

再比如下面這則視頻，講述一個(gè)乘坐火箭的人沖撞大樓引發(fā)爆炸的場景故事，三段鏡頭的剪輯呈現(xiàn)出流暢的故事邏輯，還給了主人公緊張的表情特寫，調(diào)動(dòng)觀眾的情緒，讓人感嘆 AI 這是覺醒了“創(chuàng)作意識”？

此外，豆包視頻生成模型還能保證視頻高保真和高美感，可生成影視級畫面，細(xì)節(jié)層次豐富，逼真度極高，擁有專業(yè)級色彩調(diào)和和光影布局，大幅提升畫面視覺審美。

比如下面這一則，整個(gè)畫面的打光、色調(diào)、場景、角色的表情都非常精致、細(xì)膩，很有電影大片的質(zhì)感，不說的話誰能想到這是 AI 生成的視頻？

同時(shí)其深度優(yōu)化的 Transformer 結(jié)構(gòu)，大幅提升了視頻生成的泛化能力，支持包括黑白、3D 動(dòng)畫、2D 動(dòng)畫、國畫、厚涂等多種風(fēng)格，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，帶你領(lǐng)略更自由的世界。

可以看到，豆包視頻生成模型的表現(xiàn)確實(shí)是相當(dāng)驚艷的，無論是語義理解能力、多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫面，還是多鏡頭切換的內(nèi)容一致性等方面，都可以做到接近專業(yè)人類視頻工作者的水平，如果不說是 AI 生成的，可能大家都很難發(fā)現(xiàn)。

而能做到這一點(diǎn)，對于字節(jié)跳動(dòng)以及火山引擎來說，其實(shí)完全在意料之中。

首先在“視頻”能力方面，本就是字節(jié)跳動(dòng)的優(yōu)勢賽道。火山引擎不僅是抖音計(jì)算服務(wù)的提供方，更是國內(nèi)眾多視頻、直播等業(yè)務(wù)背后的可靠支撐，在長年應(yīng)對視頻業(yè)務(wù)流量、時(shí)延、穩(wěn)定性等各種嚴(yán)苛的挑戰(zhàn)中，沉淀下來獨(dú)樹一幟的技術(shù)能力。

而在 AI 方面，即大模型的能力，有火山引擎的支撐，字節(jié)跳動(dòng)豆包大模型無論在算力、算法以及數(shù)據(jù)、場景等方面都有非常充沛的資源。具體到本次豆包視頻生成模型上，我們也能看到字節(jié)跳動(dòng)在視頻大模型技術(shù)研發(fā)的不斷投入和創(chuàng)新。比如他們采用了高效的 DiT 融合計(jì)算單元，還全新設(shè)計(jì)了擴(kuò)散模型的訓(xùn)練方法，來實(shí)現(xiàn)一致性多鏡頭的生成。此外他們還深度優(yōu)化了 Transfomer 結(jié)構(gòu)，大幅提升了視頻生成的泛化能力。

豆包大模型自去年 5 月正式發(fā)布以來，就展現(xiàn)出很強(qiáng)的市場競爭力。這次在深圳的火山引擎 AI 創(chuàng)新巡展，火山引擎總裁譚待也透露了豆包大模型最新的使用情況：

“截至到 9 月，豆包大模型的日均 tokens 使用量已經(jīng)超過 1.3 萬億，4 個(gè)月的時(shí)間里 tokens 整體增長超過了 10 倍。在多模態(tài)方面，豆包?文生圖模型日均生成圖片 5,000 萬張，此外，豆包目前日均處理語音 85 萬小時(shí)。”

火山引擎總裁譚待

如此巨大的使用量，顯然代表著市場對于豆包大模型使用體驗(yàn)和效果的認(rèn)可。同時(shí)也得益于字節(jié)大模型一貫的發(fā)展路徑和邏輯：先 toC 打磨產(chǎn)品，模型能力具備競爭優(yōu)勢后再 toB 拓展市場。

比如豆包語言大模型其實(shí)早在去年就在字節(jié)跳動(dòng)內(nèi)部完成了上線，也是首批通過大模型服務(wù)安全備案的大模型之一。字節(jié)跳動(dòng)內(nèi)部 50 多個(gè)業(yè)務(wù)已經(jīng)大量使用豆包大模型進(jìn)行 AI 創(chuàng)新，包括抖音、頭條等數(shù)億 DAU 產(chǎn)品。經(jīng)過近一年的打磨后才在今年 5 月正式發(fā)布。

而這次豆包視頻生成模型也是如此，其早期版本在今年 2 月就在即夢（Dreamina）上應(yīng)用，持續(xù)迭代優(yōu)化后才在這次正式推向企業(yè)市場。

而未來，豆包視頻生成模型也可以為眾多企業(yè)場景帶來創(chuàng)新，例如在電商營銷場景，豆包視頻生成模型不僅快速把商品變成 3D 動(dòng)態(tài)多角度展示，還能配合中秋、七夕、春節(jié)等節(jié)點(diǎn)替換背景和風(fēng)格，生成不同尺寸快速上架；在動(dòng)畫教育場景，豆包?視頻生成模型可以大幅降低動(dòng)畫的制作成本，生動(dòng)的呈現(xiàn)童話故事情節(jié)。

此外，還有城市文旅、音樂 MV、微電影、短劇等應(yīng)用場景，都可以通過豆包?視頻生成模型實(shí)現(xiàn)降本提效和創(chuàng)意合規(guī)。

總之，豆包視頻生成模型的推出，將為創(chuàng)作者乃至各行各業(yè)的工作者帶來探索未來世界的有力工具，為所有人提供有趣、快樂和自由的創(chuàng)作體驗(yàn)，用更廣闊的創(chuàng)作空間和靈感啟發(fā)，幫大家打開連接現(xiàn)實(shí)和想象世界的大門。

本文鏈接：http://www.rrqrq.com/showinfo-45-8014-0.html字節(jié)跳動(dòng)發(fā)布豆包視頻生成模型，這效果讓我分不清 AI 與現(xiàn)實(shí)

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：[email protected]

上一篇：中國移動(dòng)“算網(wǎng)大腦”規(guī)模商用，推動(dòng)算力像水電一樣即取即用

下一篇：研究發(fā)現(xiàn)：AI 越聰明就越有可能“胡編亂造”

標(biāo)簽：

熱門焦點(diǎn)

2022年6款最佳的NFT稀有度查詢工具

NFT正在風(fēng)靡全球，但擁有一個(gè)你自認(rèn)為看起來很酷的 NFT 是不夠的，因?yàn)樗€應(yīng)該是稀有的，稀有度會(huì)影響每個(gè) NFT 的價(jià)值。因此，如果您打算投資 NFT，則需要使用 NFT 稀
2022年中國元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

傳感器是由敏感元件和轉(zhuǎn)換元件構(gòu)成，能夠感受規(guī)定的檢測量(物理量、化學(xué)量、生物量等)，并按照一定規(guī)律將檢測量轉(zhuǎn)化成可用的輸出信號的器件和裝置，進(jìn)而滿足信息的
解決NFT流動(dòng)性問題：一文了解Floor DAO

流動(dòng)性是證券市場上的一個(gè)術(shù)語，流動(dòng)性是指資產(chǎn)在不影響其市場價(jià)格的情況下可以轉(zhuǎn)換為現(xiàn)成現(xiàn)金的效率，流動(dòng)性最強(qiáng)的資產(chǎn)是現(xiàn)金本身。現(xiàn)在讓我們試著從流動(dòng)性的角
NFTs正迎來數(shù)十億美元的繁榮--NFT零工經(jīng)濟(jì)從業(yè)者開始暴賺

當(dāng)Stefan Prodanovic在13歲時(shí)開始嘗試平面設(shè)計(jì)，與一位從事編程工作的學(xué)校朋友共同創(chuàng)作數(shù)字游戲時(shí)，他從未料到這個(gè)愛好會(huì)在他成年后變成一個(gè)相當(dāng)有利可圖的生意。
Interface正大光明的“跑路”，社區(qū)成員贊格局大

今日凌晨，一個(gè)廣泛受社區(qū)期待的潛力藍(lán)籌項(xiàng)目Interfaces突然發(fā)文宣布項(xiàng)目停止運(yùn)營，后續(xù)也不會(huì)有鑄造NFT系列的活動(dòng)。這對社區(qū)來說就是一重磅炸彈，大多數(shù)人完全不明
對諷刺無動(dòng)于衷，Nori將碳市場放在區(qū)塊鏈上

當(dāng)我們聊氣候問題的解決方案時(shí)，以太坊區(qū)塊鏈應(yīng)該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個(gè)引擎，鼓勵(lì)農(nóng)民使用負(fù)碳耕作方法，將空氣中的碳抽出并放回地
大廠打造元宇宙平臺的業(yè)務(wù)重心是什么？

知名市場研究機(jī)構(gòu)IDC發(fā)布《2022年中國元宇宙市場十大預(yù)測》報(bào)告，其中提出互聯(lián)網(wǎng)大廠各自獨(dú)立布局元宇宙平臺。事實(shí)上，在2021年的最后一個(gè)季度，包括Meta、英偉達(dá)、
技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

作者:易明未來，Pet Meta數(shù)字寵物藏品將是鏈接全球數(shù)億愛寵人群與元宇宙世界獨(dú)一無二的身份象征。首家面向國內(nèi)的寵物元宇宙平臺Pet Meta生長于“寵物經(jīng)濟(jì)”快速
超級賬本Julian Gordon：聯(lián)盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區(qū)塊鏈50強(qiáng)榜單中，29家企業(yè)使用Hyperledger超級賬本技術(shù)，占比近60%。同年，研究機(jī)構(gòu)Blockdata發(fā)布了的調(diào)查報(bào)告顯示，訪問Top100上市公司中，有 81

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節(jié)跳動(dòng)發(fā)布豆包視頻生成模型，這效果讓我分不清 AI 與現(xiàn)實(shí)

2022年6款最佳的NFT稀有度查詢工具

2022年中國元宇宙產(chǎn)業(yè)系列研究報(bào)告-基礎(chǔ)設(shè)施篇（5）

解決NFT流動(dòng)性問題：一文了解Floor DAO

NFTs正迎來數(shù)十億美元的繁榮--NFT零工經(jīng)濟(jì)從業(yè)者開始暴賺

Interface正大光明的“跑路”，社區(qū)成員贊格局大

對諷刺無動(dòng)于衷，Nori將碳市場放在區(qū)塊鏈上

大廠打造元宇宙平臺的業(yè)務(wù)重心是什么？

技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

超級賬本Julian Gordon：聯(lián)盟鏈與公鏈的競爭不是非此即彼

最新推薦

元宇宙帶來沉浸式智能登錄？你學(xué)會(huì)了嗎？

新款英特爾芯片將使NFT鑄造變得更加方便

摩根大通：元宇宙市場預(yù)計(jì)每年收入超1萬億美元

量子計(jì)算在未來能否提高區(qū)塊鏈技術(shù)的效率

技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

元宇宙的應(yīng)用行業(yè)研究：娛樂可能是元宇宙落地最快的場景之一

猜你喜歡

熱門推薦

相關(guān)資訊