一个能够听懂猫咪争吵、理解韩语歌词的语音模型,以96.4%的准确率击败了全球顶尖闭源对手,登上了AI语音推理的巅峰。
2026年1月15日,国际大模型评测榜单Artificial Analysis Speech Reasoning公布最新结果,阶跃星辰公司的原生语音推理模型Step-Audio-R1.1一举登顶榜首。
这是中国原生语音模型首次在该权威榜单上获得第一,标志着中国在音频人工智能领域取得了突破性进展。
01 登顶时刻
昨日深夜,当全球AI社区的目光聚焦于更新的评测榜单时,一个中国名字跃然榜首——阶跃星辰Step-Audio-R1.1。
这一成就的背后是一组令人瞩目的数据:该模型以96.4%的综合准确率超越了包括Grok、Gemini、GPT-Realtime在内的众多国际一线闭源模型。
Artificial Analysis Speech Reasoning是业界公认评估“原生语音模型”的核心第三方基准之一,其评估维度包括准确率、首包延迟等多个关键指标。
该榜单的核心价值在于评估模型直接处理音频并进行复杂逻辑推理的能力,而非简单的语音转文字。这意味着Step-Audio-R1.1不仅能够“听见”声音,更能“理解”声音中的逻辑与内涵。
02 技术突破
Step-Audio-R1.1的突破之处在于它成功解决了音频AI领域长期存在的难题。传统音频模型在采用复杂推理时往往表现不佳,甚至出现性能下降的反常现象。
阶跃星辰通过创新的“模态锚定推理蒸馏”框架,使模型能够生成与音频内容紧密相关的推理链条,真正实现了基于声学特征的深度推理能力。
这项技术突破使Step-Audio-R1.1成为首个成功在音频领域实现有效推理能力的音频推理模型。其推理过程完全基于原始声学信号,而非脱离实际音频的臆想式推演。

03 核心能力
这一模型具备“像人类一样听到对话即思考”的特点,能够端到端理解语音内容,无需额外延迟。在实际演示中,它展示了分析猫咪争斗声音和理解韩语歌词的复杂能力。
Step-Audio-R1.1延续了阶跃星辰语音模型系列的核心优势,支持情绪感知与理解,能够识别语气、语调中的情绪信息,并结合语境提供精准回应。
该模型还具备强大的多语言处理能力,覆盖多种语言和方言。在实际测试中,它已能够较为准确地理解粤语等方言并进行交流。
04 开源生态
作为开源模型,Step-Audio-R1.1的权重已上传至HuggingFace平台,开发者和研究人员可以免费下载和使用。同时,用户也可以前往阶跃星辰开放平台体验中心进行试用。
阶跃星辰与开源社区的紧密合作早有先例。2025年2月,该公司就与吉利汽车集团联合开源了Step-Audio语音模型和Step-Video-T2V视频生成模型。
这两款开源模型当时在Hugging Face榜单上热度双双进入全球前五,超过半数的体验者来自海外。这为中国AI技术的全球影响力奠定了基础。
05 应用前景
Step-Audio-R1.1完整的实时语音API计划于明年2月上线。目前用户已经可以通过开放的聊天模式体验到其核心功能,该模式支持边想边说的流式推理。
该模型的实际应用潜力广泛,从简单的语音助手到复杂的音频内容分析均可胜任。它可以用于音乐赏析、影视对话分析、访谈内容提取等场景。
在车载场景中,类似技术已展示出显著优势。早期版本的Step-Audio在吉利汽车系统中将语音指令响应速度从传统的1.2秒提升至400毫秒,方言识别准确率达到92.3%。
Step-Audio-R1.1的完整实时语音API将于2026年2月正式上线,普通用户目前可通过“跃问”APP体验其在线语音对话功能。
这一模型已支持实时打断,如同与真人交谈般自然。当技术团队演示模型理解韩语歌词时,现场观众看到的不仅是一个工具的进化,更是一个能够跨越语言与声学边界的智能新物种的诞生。
全球语音AI竞争的下半场,从听懂到理解的质变正在发生。

关注 “悠AI” 更多干货技巧行业动态