當(dāng)前位置：首頁 > 元宇宙 > AI

播客神器：微軟開源 VibeVoice-1.5B 音頻模型，支持中文、可生成 90 分鐘 4 人聊天語音

來源：責(zé)編：時(shí)間：2025-08-29 08:49:18 58觀看

導(dǎo)讀 8 月 27 日消息，科技媒體 marktechpost 于 8 月 25 日發(fā)布博文，報(bào)道稱微軟發(fā)布開源文本轉(zhuǎn)語音（TTS）模型 VibeVoice-1.5B，可一次生成最長 90 分鐘、最多 4 位不同說話者的自然語音，并支持跨語言及歌聲合成。在架構(gòu)方

8 月 27 日消息，科技媒體 marktechpost 于 8 月 25 日發(fā)布博文，報(bào)道稱微軟發(fā)布開源文本轉(zhuǎn)語音（TTS）模型 VibeVoice-1.5B，可一次生成最長 90 分鐘、最多 4 位不同說話者的自然語音，并支持跨語言及歌聲合成。

在架構(gòu)方面，VibeVoice-1.5B 基于 1.5B 參數(shù)的 Qwen2.5 語言模型，結(jié)合聲學(xué)（Acoustic）與語義（Semantic）雙分詞器（Tokenizer），以 7.5Hz 低幀率處理。

聲學(xué)分詞器使用 σ-VAE 結(jié)構(gòu)，將 24kHz 原始音頻壓縮至 3200 分之一；語義分詞器則通過語音識別代理任務(wù)訓(xùn)練，保留對話語義。解碼端采用 1.23 億參數(shù)的擴(kuò)散解碼器，結(jié)合分類器自由引導(dǎo)和 DPM-Solver，來提升音質(zhì)與細(xì)節(jié)表現(xiàn)。

該模型為確保在長篇對話中保持語音連貫性與說話人一致性，在訓(xùn)練中逐步擴(kuò)展上下文長度，從 4k 至 65k Tokens，其架構(gòu)支持多說話者的輪流發(fā)言，模擬自然對話場景，且可在流式模式下生成長音頻，為未來實(shí)時(shí) TTS 奠定基礎(chǔ)。

VibeVoice-1.5B 也有局限，目前僅支持英語與中文，其他語言可能出現(xiàn)不準(zhǔn)確或不當(dāng)內(nèi)容；不支持說話人語音重疊，也無法生成背景音效或音樂。微軟明確禁止將該模型用于聲音冒充、虛假信息傳播或繞過身份驗(yàn)證等用途，并提醒用戶遵守法律并標(biāo)明 AI 生成來源。

微軟表示，該模型主要面向科研和開發(fā)者社區(qū)，適合播客制作、對話式 AI、語音內(nèi)容生成等領(lǐng)域。未來將推出參數(shù)更大的 7B 版本，支持低延遲交互和更高保真度的實(shí)時(shí)合成，進(jìn)一步拓展應(yīng)用場景。

附上參考地址

微軟 VibeVoice-1.5B 技術(shù)報(bào)告

Hugging Face

GitHub

本文鏈接：http://www.rrqrq.com/showinfo-45-27066-0.html播客神器：微軟開源 VibeVoice-1.5B 音頻模型，支持中文、可生成 90 分鐘 4 人聊天語音

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：使用盜版書籍訓(xùn)練 AI，Anthropic 與作家群體就集體訴訟達(dá)成和解

下一篇： ChatGPT 被指導(dǎo)致美國一名 16 歲少年自殺：未有效干預(yù)且起到“教學(xué)”作用

標(biāo)簽：

熱門焦點(diǎn)

《從營銷AIGC化到AIGC營銷化》報(bào)告發(fā)布

來源：清元宇宙7月2日上午，清華大學(xué)元宇宙文化實(shí)驗(yàn)室舉辦元宇宙在線沙龍“AIGC熱潮與應(yīng)用”。會議中，清華大學(xué)新聞與傳播學(xué)院教授、元宇宙文化實(shí)驗(yàn)室主任、新媒體研究
虛擬人再升級，企業(yè)可以解放雙手了？

來源：伯虎財(cái)經(jīng)今天想跟大家來嘮嘮AI，其實(shí)聊到這個(gè)話題很多人都不陌生了。在ChatGPT和AIGC大熱背后，還有一位低調(diào)的“大佬”——虛擬人。比如咱們熟知的虛
10億基金，李彥宏呼喚下一個(gè)AI獨(dú)角獸

©?深響原創(chuàng) · 作者｜何文 AI太熱了。在海外，OpenAI估值已超270億美元、英偉達(dá)市值破萬億、微軟把GPT整合進(jìn)了全線產(chǎn)品。在國內(nèi)，百度、阿里、華為、商湯等大公司，以及
汽車元宇宙，是概念還是未來？

作者｜何文元宇宙是未來趨勢已經(jīng)無需驗(yàn)證。從概念上來看，元宇宙是兩種存在多年的概念的融合：虛擬現(xiàn)實(shí)和數(shù)字第二人生。這也就意味著，元宇宙所代表的是一種新的數(shù)
從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節(jié)有一個(gè)詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數(shù)字藏品”一時(shí)間獲得了不少品牌青睞，他們紛紛推出自己的數(shù)
韓國國民銀行將推出韓國首個(gè)加密貨幣 ETF

韓國國民銀行(Kookmin Bank)計(jì)劃發(fā)行該國首個(gè)以散戶投資者為主要關(guān)注點(diǎn)的加密貨幣投資基金。根據(jù)公告，該銀行正在等待政府批準(zhǔn)，并已建立一個(gè)準(zhǔn)備就緒的數(shù)字資產(chǎn)
NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者，她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術(shù)作品，和她自己的數(shù)字藝術(shù)之路。Hayley是加利福尼亞灣區(qū)的有
音樂NFT平臺里的下一匹黑馬是誰？

NFT 銷售額在 2021 年開始暴漲，從 2018 年的僅 4069 萬美元的交易量，到 2021 年，NFT 交易量飆升至 442 億美元以上，并不斷刷新記錄并達(dá)到新的高度。預(yù)測到2025 年N
元宇宙畫廊體驗(yàn)報(bào)告：有點(diǎn)頭疼。

2 月 10 日，Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強(qiáng)現(xiàn)實(shí)藝術(shù)品。“我們現(xiàn)在在虛擬世界中嗎？時(shí)間好像變長了” 我問身后排隊(duì)的人。我

淺聊DAO圖景和未來

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

播客神器：微軟開源 VibeVoice-1.5B 音頻模型，支持中文、可生成 90 分鐘 4 人聊天語音

《從營銷AIGC化到AIGC營銷化》報(bào)告發(fā)布

虛擬人再升級，企業(yè)可以解放雙手了？

10億基金，李彥宏呼喚下一個(gè)AI獨(dú)角獸

汽車元宇宙，是概念還是未來？

從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

韓國國民銀行將推出韓國首個(gè)加密貨幣 ETF

NFT藝術(shù)家Hayley Rincon 專訪：我的迷幻數(shù)字藝術(shù)之路

音樂NFT平臺里的下一匹黑馬是誰？

元宇宙畫廊體驗(yàn)報(bào)告：有點(diǎn)頭疼。

最新推薦

花房集團(tuán)上市，走向元宇宙新征程

網(wǎng)易音樂、理想申請?jiān)钪嫔虡?biāo)被駁回，“啫喱”暫停新用戶進(jìn)入

銀保監(jiān)會：打擊以“元宇宙”為名義的違法行為

字節(jié)覓《原神》，騰訊元宇宙，游戲新王戰(zhàn)舊神？

元宇宙不完全是想出來的，而是實(shí)打?qū)嵶龀鰜淼?/a>

猜你喜歡

熱門推薦

相關(guān)資訊