【AI速递】小米重磅开源!OmniVoice 覆盖 600+

AI广播站17小时前更新 小悠
11 0 0

近日,小米下一代 Kaldi 团队(k2-fsa)正式开源 OmniVoice,这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型,在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art),为语音合成领域带来全新突破。

性能指标领先:中文 WER 低至0.84%,多语言超越主流商用模型

【AI速递】小米重磅开源!OmniVoice 覆盖 600+

在 Seed-TTS 中文测试集上,OmniVoice 的词错误率(WER)仅为0.84%。在多语言 benchmark 上,其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型,展现出卓越的语音自然度和清晰度。

OmniVoice 的实时因子(RTF)低至0.025,意味着合成速度远超实时需求,效率提升显著。这使得模型在实际应用中能够快速生成长文本语音,极大提升用户体验。

OmniVoice 采用扩散语言模型风格的离散非自回归架构,可直接从文本一步生成语音,跳过传统的中间语义 token 阶段。这一设计显著简化了流程,同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化,进一步提升了训练效率和最终输出的清晰度与可懂度。

模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外,用户还可以通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音、方言等,甚至可以生成耳语风格等特殊效果。

OmniVoice 能够处理非语言符号,例如[laughter]表示笑声,还支持通过拼音或音标进行发音纠正,特别适合中文及方言的精准合成。

OmniVoice 的最大亮点在于其广泛的语言覆盖范围,从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言,只需少量样本即可生成高质量语音,这对语言文化的数字化保存和保护具有重要意义。

OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源,开发者可轻松本地部署或集成应用。AIbase 将持续关注 OmniVoice 的社区反馈与实际使用案例,欢迎开发者分享更多体验。

项目地址:https://github.com/k2-fsa/OmniVoice

小米推出MiMo大模型首个Token Plan,面向开发者和AI兴趣群体提供付费订阅服务。套餐分四档:Lite版39元/月、Standard版99元/月、Pro版329元/月、Max版,满足不同使用需求,标志小米AI生态进入付费时代。

小米3月底推出MiMo大模型首个Token Plan订阅套餐,分四档月费39至659元,通过统一Credit点数实现多模型、多模态调用计费透明化,覆盖核心模型并支持文本、图像、音频等,标志其AI商业化进入规模化交付阶段。

小米键盘升级为AI智能交互平台,引入HyperOS 4设计语言,新增AI聊天和实时翻译功能,支持多语种自动检测,彻底改变传统输入体验。

小米宣布未来三年投入超600亿元布局AI,2026年研发与资本开支将达160亿元,加速向AI科技巨头转型。

小米2025年财报亮眼:总收入4572.87亿元,同比增长25%;调整后净利润391.66亿元,激增43.8%。智能手机与汽车业务双轮驱动,推动公司进入强劲增长期。研发投入创新高,2.5万名工程师支撑技术突破,体现雷军对底层技术的持续投入。

【AI速递】小米重磅开源!OmniVoice 覆盖 600+

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...