8 月 27 日消息,科技媒體 marktechpost 于 8 月 25 日發(fā)布博文,報(bào)道稱微軟發(fā)布開源文本轉(zhuǎn)語音(TTS)模型 VibeVoice-1.5B,可一次生成最長 90 分鐘、最多 4 位不同說話者的自然語音,并支持跨語言及歌聲合成。
在架構(gòu)方面,VibeVoice-1.5B 基于 1.5B 參數(shù)的 Qwen2.5 語言模型,結(jié)合聲學(xué)(Acoustic)與語義(Semantic)雙分詞器(Tokenizer),以 7.5Hz 低幀率處理。

聲學(xué)分詞器使用 σ-VAE 結(jié)構(gòu),將 24kHz 原始音頻壓縮至 3200 分之一;語義分詞器則通過語音識別代理任務(wù)訓(xùn)練,保留對話語義。解碼端采用 1.23 億參數(shù)的擴(kuò)散解碼器,結(jié)合分類器自由引導(dǎo)和 DPM-Solver,來提升音質(zhì)與細(xì)節(jié)表現(xiàn)。

該模型為確保在長篇對話中保持語音連貫性與說話人一致性,在訓(xùn)練中逐步擴(kuò)展上下文長度,從 4k 至 65k Tokens,其架構(gòu)支持多說話者的輪流發(fā)言,模擬自然對話場景,且可在流式模式下生成長音頻,為未來實(shí)時(shí) TTS 奠定基礎(chǔ)。
VibeVoice-1.5B 也有局限,目前僅支持英語與中文,其他語言可能出現(xiàn)不準(zhǔn)確或不當(dāng)內(nèi)容;不支持說話人語音重疊,也無法生成背景音效或音樂。微軟明確禁止將該模型用于聲音冒充、虛假信息傳播或繞過身份驗(yàn)證等用途,并提醒用戶遵守法律并標(biāo)明 AI 生成來源。
微軟表示,該模型主要面向科研和開發(fā)者社區(qū),適合播客制作、對話式 AI、語音內(nèi)容生成等領(lǐng)域。未來將推出參數(shù)更大的 7B 版本,支持低延遲交互和更高保真度的實(shí)時(shí)合成,進(jìn)一步拓展應(yīng)用場景。
附上參考地址
微軟 VibeVoice-1.5B 技術(shù)報(bào)告
Hugging Face
GitHub
本文鏈接:http://www.rrqrq.com/showinfo-45-27066-0.html播客神器:微軟開源 VibeVoice-1.5B 音頻模型,支持中文、可生成 90 分鐘 4 人聊天語音
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com