嘈杂的会议室里,一段普通话录音正被实时转换成流利的英语,声音保留了原说话者独特的音色和刚刚表达出的兴奋情绪。
阿里巴巴旗下通义大模型于12月15日宣布,其语音模型“通义百聆”完成重要升级并正式开源。
新版本模型仅需用户提供3秒以上的参考音频,即可高精度克隆原始音色,并生成支持9种通用语言和18种方言的合成语音。这一突破性进展将语音合成技术的门槛和应用场景推向了新的高度。
01 技术突破
阿里此次升级的“百聆”系列模型,主要包含Fun-CosyVoice3和Fun-ASR两大核心组件。其中Fun-CosyVoice3模型提供了“zero-shot音色克隆”能力,用户无需大量训练数据,仅需一段简短的参考音频即可完成音色复刻。
在技术参数方面,新模型实现了多项突破:首包延迟降低50%,中英文混合识别准确率翻倍,同时支持多达9种语言和18种方言口音。

更值得注意的是,这一模型不仅仅是简单的语音转换。它具备情感控制能力,可以模拟开心、愤怒等多种情绪状态,使合成语音更加自然生动。
02 应用前景
升级后的百聆语音模型已在多个实际场景中得到应用。特别是在嘈杂环境下的会议录音转写中,AI能够实现毫秒级文字输出,有效处理背景音乐、多人同时说话等干扰。
这一技术特性直接解决了企业会议记录中的痛点问题。钉钉的“AI听记”功能已经集成了这项技术,显著提升了会议记录的效率和准确性。
除了会议场景,该模型还展现出对特殊语音内容的强大识别能力。它能够准确识别绕口令、RAP等复杂语音内容,甚至在有背景音乐干扰的情况下仍能保持高识别率。
03 开发生态
阿里此次将两款模型全部开源,支持本地部署与二次开发。其中,Fun-CosyVoice3模型参数量为0.5B,而Fun-ASR的轻量化版本Fun-ASR-Nano总参数量则压缩到0.8B,显著降低了推理成本。
开源策略是阿里通义大模型生态构建的重要组成部分。截至2025年,通义开源模型总量已超过200款,覆盖推理、多模态、不同参数规模等多种场景,衍生模型突破10万个。
Fun-ASR模型在噪声场景下的识别准确率达到93%,支持31种语言自由混合识别,包括歌词与说唱识别等特殊场景。
04 行业背景
通义百聆是阿里巴巴在2025年9月云栖大会上推出的全新品牌,定位为企业级语音基座大模型。它整合了Fun-ASR语音识别和Fun-CosyVoice语音合成两大模型,致力于攻克复杂环境下的语音落地应用难题。
阿里云智能集团资深副总裁刘伟光曾指出,2025年是中国AI应用爆发的元年。过去一年,阿里云平台上的大语言模型API调用量增长了近100倍,接入企业数量同样增长百倍。
这一数据背后,反映了企业级市场对语音AI技术的迫切需求。百聆模型的推出和持续升级,正是阿里针对这一趋势的战略布局。
05 市场意义
阿里此次升级并开源百聆语音模型,标志着中国AI语音技术达到了新的高度。仅需3秒录音即可克隆音色的能力,大幅降低了高质量语音合成的技术门槛。
同时支持9种通用语言和18种方言的语音合成能力,使这一技术能够服务于更广泛的地区和用户群体。特别是在中国这样一个方言丰富的国家,方言支持的重要性不言而喻。
对开发者而言,开源且支持本地部署的特性意味着更大的灵活性和可控性。企业可以根据自身需求进行二次开发,构建定制化的语音交互解决方案,而不必完全依赖云端服务。
在嘈杂的客服中心,一段带口音的投诉电话正被AI实时转写成工整文字,并自动分析客户情绪;在跨国视频会议中,一位中国高管的中文发言被同步转换成带有他本人音色的流利英语,语气和情感悉数保留。
从企业会议室到全球化的虚拟交流,语音合成技术正逐步将技术指标转化为真实世界中的流畅体验。 开源战略下的百聆模型,正在降低技术门槛,让更多开发者能参与到这场对话革命中。
当技术不再只是实验室中的参数竞赛,而是每个人只需3秒就能触及的便利,智能语音的“百聆”时代已悄然而至。

关注 “悠AI” 更多干货技巧行业动态