IT之家 9 月(yue) 1 日(ri)消息,階躍星辰今日(ri)發布開源端到端語(yu)音(yin)大模型(xing) Step-Audio 2 mini,該模型(xing)在多個國際基準測試集(ji)上取(qu)得 SOTA 成績(ji)。Step-Audio 2 mini 現已上線。
IT之家從官方介紹獲悉,它將語音理解、音頻推理與生成統一建模,并率先支持語音原生的 Tool Calling 能力,可實現聯網搜索等操作。
Step-Audio 2 mini 在多個關鍵基準測試中取得 SOTA 成績,在音頻理解、語音識別、翻譯和對話場景中表現突出,綜合性能超越 Qwen-Omni 、Kimi-Audio 在內的所有開源端到端語音模型,并在大部分任務上超越 GPT-4o Audio。

在通用多模(mo)態音頻理解測試集 MMAU 上,Step-Audio 2 mini 以 73.2 的(de)得分位列(lie)開源端到端語音模(mo)型榜首(shou);
在衡(heng)量口語對話能力的 URO Bench 上,Step-Audio 2 mini 在基礎與專業賽道均(jun)拿下開源端(duan)到端(duan)語音模型最高分,展現出優(you)秀的對話理解與表達能力;
在中英互譯任務上,Step-Audio 2 mini 優勢明顯,在 CoVoST 2 和 CVSS 評測集上分別取得 39.3 和 29.1 的分數,大(da)幅(fu)領先 GPT-4o Audio 和其(qi)他(ta)開源語音模型(xing);
在語音識別任務上,Step-Audio 2 mini 取得多語言和多方言第一。其中開源中文測試集平均 CER(字錯誤率(lv)) 3.19,開源英語測試集平均 WER(詞錯誤率(lv)) 3.50,領先其他開源模型 15% 以上。

過(guo)往的(de) AI 語音常被吐(tu)槽智商、情(qing)商雙(shuang)低。一是“沒知識(shi)”,缺乏文本(ben)大(da)模型一樣的(de)知識(shi)儲(chu)備和推理能力(li);二是“冷冰冰”,聽不(bu)懂潛臺詞(ci),語氣、情(qing)緒、笑聲這些(xie)“弦外之音”。Step-Audio 2 mini 通過(guo)創新架(jia)構設計,有效解決(jue)了(le)此前語音模型存在的(de)問題。
真端到端多模態架構:Step-Audio 2 mini 突破傳統 ASR+LLM+TTS 三(san)級結構,實現原始音頻輸(shu)入(ru)到語音響應輸(shu)出的直接轉換,架(jia)構更簡潔、時延更低,并能有效理解副語言信息與非人聲信號(hao)。

CoT 推理結合強化學習:Step-Audio 2 mini 在端(duan)到端(duan)語音模型(xing)中首次(ci)引入鏈式思維推(tui)理(Chain-of-Thought,CoT)與強化學習聯合(he)優化,能(neng)對情緒、語調、音樂等副語言和非語音信號進(jin)行精細理解、推(tui)理并自然(ran)回應。
音頻知識增強:模型支持包括(kuo) web 檢索等外部工具,有助于模型解決幻覺問題(ti),并(bing)賦(fu)予模型在(zai)多場(chang)景擴展上的能力。
GitHub:
Hugging Face:
ModelScope:
廣(guang)告聲明:文(wen)(wen)內含有的對外跳轉鏈(lian)接(jie)(包(bao)括不限(xian)于超鏈(lian)接(jie)、二維碼、口(kou)令等形式),用于傳遞(di)更多信息,節省甄選時間,結果(guo)僅供參考,IT之家(jia)所有文(wen)(wen)章均(jun)包(bao)含本聲明。