不止克隆更能“无中生有”：阿里通义连发两款AI语音模型，开启声音的“Freestyle”时代

3月2日，上海证券报记者从阿里云通义实验室获悉，其语音团队正式发布了两款具备“指令遵循”能力的语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。此次发布标志着AI语音技术从单纯的“模仿复刻”迈向了可以通过自然语言进行精细化控制和全场景设计的全新阶段，为内容创作者带来了前所未有的“Freestyle”创作自由。

让声音听懂人话：精细化控制与生僻字攻坚

作为基于参考音频的声音克隆模型，Fun-CosyVoice3.5在语音表达的“理解力”上实现了重大升级。它不再仅仅是机械地模仿音色，而是能够听懂创作者的“弦外之音”。用户只需输入如“语气坚定一点”、“带一点情绪起伏”等自然语言指令，模型便能精准地调整语音的情感、语速和语调，真正实现了“所说即所得”的指令式生成。

除了控制的灵活性，该模型在技术指标上也取得了突破性进展。针对中文“困难案例”专项优化后，生僻字词的读错率从过去的15.2%大幅降低至5.3%，极大提升了长文本朗读的准确性和流畅度。同时，Fun-CosyVoice3.5通过Tokenizer帧率减半等技术手段，将首包延迟降低了35%，为实时交互场景提供了更流畅的体验。值得一提的是，该模型新增了对泰语、印尼语等四种语言的支持，目前已在13种语言的客观评测中保持业内领先地位。

从零造音：成为声音世界的“导演”

如果说Fun-CosyVoice3.5是一位出色的模仿者，那么此次同步上线的Fun-AudioGen-VD则更像一位富有想象力的“声音导演”。作为无参考音频的音色设计模型，它支持从零开始构建声音，并能将人物音色与场景融为一体。

这款模型的能力极为细腻：创作者不仅可以定义声音的性别、年龄、口音等基础属性，还能赋予其“沙哑”、“清亮”的音质特征，甚至模拟出“表面镇定但内心颤抖”这类极其复杂的心理状态表达。更令人惊叹的是，Fun-AudioGen-VD能同步生成声音所处的“世界”——无论是叠加城市喧嚣的背景环境音，还是模拟大教堂、金属牢房的空间混响效果，都能一键完成，为游戏、有声书、播客及影视后期制作提供了强大的沉浸式音频解决方案。

即日起，开发者及用户可通过阿里云百炼平台调用这两款最新模型。业内分析认为，通义实验室此次发布的双模型，通过DiffRO和GRPO等先进强化学习算法的应用，在语音准确率、韵律自然度及音质方面均实现了显著提升，不仅降低了高质量语音创作的门槛，更预示着AI语音技术将在人机交互领域开启更广阔的想象空间。

不止克隆更能“无中生有”：阿里通义连发两款AI语音模型，开启声音的“Freestyle”时代

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

不止克隆更能“无中生有”：阿里通义连发两款AI语音模型，开启声音的“Freestyle”时代

让声音听懂人话：精细化控制与生僻字攻坚

从零造音：成为声音世界的“导演”

联想MWC亮出“有手有眼”的AI工友，办公桌上的数字化身从此有了温度

三星擘画工业革命新蓝图：2030年全球工厂迎来“AI代理”掌舵时代

相关文章

暂无评论