8 月 27 日消息,科技媒體 marktechpost 于 8 月 25 日發布博文,報道稱微軟發布開源文本轉語音(TTS)模型 VibeVoice-1.5B,可一次生成最長 90 分鐘、最多 4 位不同說話者的自然語音,并支持跨語言及歌聲合成。
在架構方面,VibeVoice-1.5B 基于 1.5B 參數的 Qwen2.5 語言模型,結合聲學(Acoustic)與語義(Semantic)雙分詞器(Tokenizer),以 7.5Hz 低幀率處理。

聲學分詞器使用 σ-VAE 結構,將 24kHz 原始音頻壓縮至 3200 分之一;語義分詞器則通過語音識別代理任務訓練,保留對話語義。解碼端采用 1.23 億參數的擴散解碼器,結合分類器自由引導和 DPM-Solver,來提升音質與細節表現。

該模型為確保在長篇對話中保持語音連貫性與說話人一致性,在訓練中逐步擴展上下文長度,從 4k 至 65k Tokens,其架構支持多說話者的輪流發言,模擬自然對話場景,且可在流式模式下生成長音頻,為未來實時 TTS 奠定基礎。
VibeVoice-1.5B 也有局限,目前僅支持英語與中文,其他語言可能出現不準確或不當內容;不支持說話人語音重疊,也無法生成背景音效或音樂。微軟明確禁止將該模型用于聲音冒充、虛假信息傳播或繞過身份驗證等用途,并提醒用戶遵守法律并標明 AI 生成來源。
微軟表示,該模型主要面向科研和開發者社區,適合播客制作、對話式 AI、語音內容生成等領域。未來將推出參數更大的 7B 版本,支持低延遲交互和更高保真度的實時合成,進一步拓展應用場景。
附上參考地址
微軟 VibeVoice-1.5B 技術報告
Hugging Face
GitHub
本文鏈接:http://www.rrqrq.com/showinfo-45-27066-0.html播客神器:微軟開源 VibeVoice-1.5B 音頻模型,支持中文、可生成 90 分鐘 4 人聊天語音
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com