【AI速递】小米重磅开源！OmniVoice 覆盖 600+

近日，小米下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice，这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型，在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)，为语音合成领域带来全新突破。

性能指标领先:中文 WER 低至0.84%，多语言超越主流商用模型

在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）仅为0.84%。在多语言 benchmark 上，其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型，展现出卓越的语音自然度和清晰度。

OmniVoice 的实时因子（RTF）低至0.025，意味着合成速度远超实时需求，效率提升显著。这使得模型在实际应用中能够快速生成长文本语音，极大提升用户体验。

OmniVoice 采用扩散语言模型风格的离散非自回归架构，可直接从文本一步生成语音，跳过传统的中间语义 token 阶段。这一设计显著简化了流程，同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化，进一步提升了训练效率和最终输出的清晰度与可懂度。

模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外，用户还可以通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音、方言等，甚至可以生成耳语风格等特殊效果。

OmniVoice 能够处理非语言符号，例如[laughter]表示笑声，还支持通过拼音或音标进行发音纠正，特别适合中文及方言的精准合成。

OmniVoice 的最大亮点在于其广泛的语言覆盖范围，从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言，只需少量样本即可生成高质量语音，这对语言文化的数字化保存和保护具有重要意义。

OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源，开发者可轻松本地部署或集成应用。AIbase 将持续关注 OmniVoice 的社区反馈与实际使用案例，欢迎开发者分享更多体验。

项目地址：https://github.com/k2-fsa/OmniVoice

小米推出MiMo大模型首个Token Plan，面向开发者和AI兴趣群体提供付费订阅服务。套餐分四档：Lite版39元/月、Standard版99元/月、Pro版329元/月、Max版，满足不同使用需求，标志小米AI生态进入付费时代。

小米3月底推出MiMo大模型首个Token Plan订阅套餐，分四档月费39至659元，通过统一Credit点数实现多模型、多模态调用计费透明化，覆盖核心模型并支持文本、图像、音频等，标志其AI商业化进入规模化交付阶段。

小米键盘升级为AI智能交互平台，引入HyperOS 4设计语言，新增AI聊天和实时翻译功能，支持多语种自动检测，彻底改变传统输入体验。

小米宣布未来三年投入超600亿元布局AI，2026年研发与资本开支将达160亿元，加速向AI科技巨头转型。

小米2025年财报亮眼：总收入4572.87亿元，同比增长25%；调整后净利润391.66亿元，激增43.8%。智能手机与汽车业务双轮驱动，推动公司进入强劲增长期。研发投入创新高，2.5万名工程师支撑技术突破，体现雷军对底层技术的持续投入。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...