階躍星辰發布端到端語音大模型 Step-Audio 2 mini，多個基準測試取得 SOTA 成績

2025/9/1 14:55:25 來源：IT之家作者：浩渺責編：浩渺

評論：

IT之家 9 月(yue) 1 日(ri)消息，階躍星辰今日(ri)發布開源端到端語(yu)音(yin)大模型(xing) Step-Audio 2 mini，該模型(xing)在多個國際基準測試集(ji)上取(qu)得 SOTA 成績(ji)。Step-Audio 2 mini 現已上線。

IT之家從官方介紹獲悉，它將語音理解、音頻推理與生成統一建模，并率先支持語音原生的 Tool Calling 能力，可實現聯網搜索等操作。

Step-Audio 2 mini 在多個關鍵基準測試中取得 SOTA 成績，在音頻理解、語音識別、翻譯和對話場景中表現突出，綜合性能超越 Qwen-Omni 、Kimi-Audio 在內的所有開源端到端語音模型，并在大部分任務上超越 GPT-4o Audio。

階躍星辰發布端到端語音大模型 Step-Audio 2 mini，多個基準測試取得 SOTA 成績

在通用多模(mo)態音頻理解測試集 MMAU 上，Step-Audio 2 mini 以 73.2 的(de)得分位列(lie)開源端到端語音模(mo)型榜首(shou)；
在衡(heng)量口語對話能力的 URO Bench 上，Step-Audio 2 mini 在基礎與專業賽道均(jun)拿下開源端(duan)到端(duan)語音模型最高分，展現出優(you)秀的對話理解與表達能力；
在中英互譯任務上，Step-Audio 2 mini 優勢明顯，在 CoVoST 2 和 CVSS 評測集上分別取得 39.3 和 29.1 的分數，大(da)幅(fu)領先 GPT-4o Audio 和其(qi)他(ta)開源語音模型(xing)；
在語音識別任務上，Step-Audio 2 mini 取得多語言和多方言第一。其中開源中文測試集平均 CER（字錯誤率(lv)） 3.19，開源英語測試集平均 WER（詞錯誤率(lv)） 3.50，領先其他開源模型 15% 以上。

階躍星辰發布端到端語音大模型 Step-Audio 2 mini，多個基準測試取得 SOTA 成績

過(guo)往的(de) AI 語音常被吐(tu)槽智商、情(qing)商雙(shuang)低。一是“沒知識(shi)”，缺乏文本(ben)大(da)模型一樣的(de)知識(shi)儲(chu)備和推理能力(li)；二是“冷冰冰”，聽不(bu)懂潛臺詞(ci)，語氣、情(qing)緒、笑聲這些(xie)“弦外之音”。Step-Audio 2 mini 通過(guo)創新架(jia)構設計，有效解決(jue)了(le)此前語音模型存在的(de)問題。

真端到端多模態架構：Step-Audio 2 mini 突破傳統 ASR+LLM+TTS 三(san)級結構，實現原始音頻輸(shu)入(ru)到語音響應輸(shu)出的直接轉換，架(jia)構更簡潔、時延更低，并能有效理解副語言信息與非人聲信號(hao)。

階躍星辰發布端到端語音大模型 Step-Audio 2 mini，多個基準測試取得 SOTA 成績

▲ Step-Audio 2 mini 模型架構圖

CoT 推理結合強化學習：Step-Audio 2 mini 在端(duan)到端(duan)語音模型(xing)中首次(ci)引入鏈式思維推(tui)理（Chain-of-Thought，CoT）與強化學習聯合(he)優化，能(neng)對情緒、語調、音樂等副語言和非語音信號進(jin)行精細理解、推(tui)理并自然(ran)回應。
音頻知識增強：模型支持包括(kuo) web 檢索等外部工具，有助于模型解決幻覺問題(ti)，并(bing)賦(fu)予模型在(zai)多場(chang)景擴展上的能力。

GitHub：

Hugging Face：

ModelScope：

廣(guang)告聲明：文(wen)(wen)內含有的對外跳轉鏈(lian)接(jie)（包(bao)括不限(xian)于超鏈(lian)接(jie)、二維碼、口(kou)令等形式），用于傳遞(di)更多信息，節省甄選時間，結果(guo)僅供參考，IT之家(jia)所有文(wen)(wen)章均(jun)包(bao)含本聲明。

九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

階躍星辰發布端到端語音大模型 Step-Audio 2 mini，多個基準測試取得 SOTA 成績

相關文章