9 月 1 日消息,階躍星辰今日發布開源端到端語音大模型 Step-Audio 2 mini,該模型在多個國際基準測試集上取得 SOTA 成績。Step-Audio 2 mini 現已上線階躍星辰開放平臺。
從官方介紹獲悉,它將語音理解、音頻推理與生成統一建模,并率先支持語音原生的 Tool Calling 能力,可實現聯網搜索等操作。
Step-Audio 2 mini 在多個關鍵基準測試中取得 SOTA 成績,在音頻理解、語音識別、翻譯和對話場景中表現突出,綜合性能超越 Qwen-Omni 、Kimi-Audio 在內的所有開源端到端語音模型,并在大部分任務上超越 GPT-4o Audio。
在通用多模態音頻理解測試集 MMAU 上,Step-Audio 2 mini 以 73.2 的得分位列開源端到端語音模型榜首;
在衡量口語對話能力的 URO Bench 上,Step-Audio 2 mini 在基礎與專業賽道均拿下開源端到端語音模型最高分,展現出優秀的對話理解與表達能力;
在中英互譯任務上,Step-Audio 2 mini 優勢明顯,在 CoVoST 2 和 CVSS 評測集上分別取得 39.3 和 29.1 的分數,大幅領先 GPT-4o Audio 和其他開源語音模型;
在語音識別任務上,Step-Audio 2 mini 取得多語言和多方言第一。其中開源中文測試集平均 CER(字錯誤率) 3.19,開源英語測試集平均 WER(詞錯誤率) 3.50,領先其他開源模型 15% 以上。
過往的 AI 語音常被吐槽智商、情商雙低。一是“沒知識”,缺乏文本大模型一樣的知識儲備和推理能力;二是“冷冰冰”,聽不懂潛臺詞,語氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini 通過創新架構設計,有效解決了此前語音模型存在的問題。
真端到端多模態架構:Step-Audio 2 mini 突破傳統 ASR+LLM+TTS 三級結構,實現原始音頻輸入到語音響應輸出的直接轉換,架構更簡潔、時延更低,并能有效理解副語言信息與非人聲信號。
CoT 推理結合強化學習:Step-Audio 2 mini 在端到端語音模型中首次引入鏈式思維推理(Chain-of-Thought,CoT)與強化學習聯合優化,能對情緒、語調、音樂等副語言和非語音信號進行精細理解、推理并自然回應。
音頻知識增強:模型支持包括 web 檢索等外部工具,有助于模型解決幻覺問題,并賦予模型在多場景擴展上的能力。
GitHub:https://github.com/stepfun-ai/Step-Audio2
Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
本文鏈接:http://www.rrqrq.com/showinfo-45-27228-0.html階躍星辰發布端到端語音大模型 Step-Audio 2 mini,多個基準測試取得 SOTA 成績
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com