阿里“百聆”升级：仅需3秒录音，AI语音可自由切换9种语言与情感

嘈杂的会议室里，一段普通话录音正被实时转换成流利的英语，声音保留了原说话者独特的音色和刚刚表达出的兴奋情绪。

阿里巴巴旗下通义大模型于12月15日宣布，其语音模型“通义百聆”完成重要升级并正式开源。

新版本模型仅需用户提供3秒以上的参考音频，即可高精度克隆原始音色，并生成支持9种通用语言和18种方言的合成语音。这一突破性进展将语音合成技术的门槛和应用场景推向了新的高度。

01 技术突破

阿里此次升级的“百聆”系列模型，主要包含Fun-CosyVoice3和Fun-ASR两大核心组件。其中Fun-CosyVoice3模型提供了“zero-shot音色克隆”能力，用户无需大量训练数据，仅需一段简短的参考音频即可完成音色复刻。

在技术参数方面，新模型实现了多项突破：首包延迟降低50%，中英文混合识别准确率翻倍，同时支持多达9种语言和18种方言口音。

更值得注意的是，这一模型不仅仅是简单的语音转换。它具备情感控制能力，可以模拟开心、愤怒等多种情绪状态，使合成语音更加自然生动。

升级后的百聆语音模型已在多个实际场景中得到应用。特别是在嘈杂环境下的会议录音转写中，AI能够实现毫秒级文字输出，有效处理背景音乐、多人同时说话等干扰。

这一技术特性直接解决了企业会议记录中的痛点问题。钉钉的“AI听记”功能已经集成了这项技术，显著提升了会议记录的效率和准确性。

除了会议场景，该模型还展现出对特殊语音内容的强大识别能力。它能够准确识别绕口令、RAP等复杂语音内容，甚至在有背景音乐干扰的情况下仍能保持高识别率。

阿里此次将两款模型全部开源，支持本地部署与二次开发。其中，Fun-CosyVoice3模型参数量为0.5B，而Fun-ASR的轻量化版本Fun-ASR-Nano总参数量则压缩到0.8B，显著降低了推理成本。

开源策略是阿里通义大模型生态构建的重要组成部分。截至2025年，通义开源模型总量已超过200款，覆盖推理、多模态、不同参数规模等多种场景，衍生模型突破10万个。

Fun-ASR模型在噪声场景下的识别准确率达到93%，支持31种语言自由混合识别，包括歌词与说唱识别等特殊场景。

通义百聆是阿里巴巴在2025年9月云栖大会上推出的全新品牌，定位为企业级语音基座大模型。它整合了Fun-ASR语音识别和Fun-CosyVoice语音合成两大模型，致力于攻克复杂环境下的语音落地应用难题。

阿里云智能集团资深副总裁刘伟光曾指出，2025年是中国AI应用爆发的元年。过去一年，阿里云平台上的大语言模型API调用量增长了近100倍，接入企业数量同样增长百倍。

这一数据背后，反映了企业级市场对语音AI技术的迫切需求。百聆模型的推出和持续升级，正是阿里针对这一趋势的战略布局。

阿里此次升级并开源百聆语音模型，标志着中国AI语音技术达到了新的高度。仅需3秒录音即可克隆音色的能力，大幅降低了高质量语音合成的技术门槛。

同时支持9种通用语言和18种方言的语音合成能力，使这一技术能够服务于更广泛的地区和用户群体。特别是在中国这样一个方言丰富的国家，方言支持的重要性不言而喻。

对开发者而言，开源且支持本地部署的特性意味着更大的灵活性和可控性。企业可以根据自身需求进行二次开发，构建定制化的语音交互解决方案，而不必完全依赖云端服务。

在嘈杂的客服中心，一段带口音的投诉电话正被AI实时转写成工整文字，并自动分析客户情绪；在跨国视频会议中，一位中国高管的中文发言被同步转换成带有他本人音色的流利英语，语气和情感悉数保留。

从企业会议室到全球化的虚拟交流，语音合成技术正逐步将技术指标转化为真实世界中的流畅体验。 开源战略下的百聆模型，正在降低技术门槛，让更多开发者能参与到这场对话革命中。

当技术不再只是实验室中的参数竞赛，而是每个人只需3秒就能触及的便利，智能语音的“百聆”时代已悄然而至。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

您必须登录才能参与评论！

立即登录

暂无评论...