不止克隆更能“无中生有”:阿里通义连发两款AI语音模型,开启声音的“Freestyle”时代

AI广播站16小时前发布 小悠
3 0 0

3月2日,上海证券报记者从阿里云通义实验室获悉,其语音团队正式发布了两款具备“指令遵循”能力的语音生成模型——Fun-CosyVoice3.5Fun-AudioGen-VD。此次发布标志着AI语音技术从单纯的“模仿复刻”迈向了可以通过自然语言进行精细化控制和全场景设计的全新阶段,为内容创作者带来了前所未有的“Freestyle”创作自由 。

让声音听懂人话:精细化控制与生僻字攻坚

作为基于参考音频的声音克隆模型,Fun-CosyVoice3.5在语音表达的“理解力”上实现了重大升级。它不再仅仅是机械地模仿音色,而是能够听懂创作者的“弦外之音”。用户只需输入如“语气坚定一点”、“带一点情绪起伏”等自然语言指令,模型便能精准地调整语音的情感、语速和语调,真正实现了“所说即所得”的指令式生成 。

除了控制的灵活性,该模型在技术指标上也取得了突破性进展。针对中文“困难案例”专项优化后,生僻字词的读错率从过去的15.2%大幅降低至5.3%,极大提升了长文本朗读的准确性和流畅度 。同时,Fun-CosyVoice3.5通过Tokenizer帧率减半等技术手段,将首包延迟降低了35%,为实时交互场景提供了更流畅的体验。值得一提的是,该模型新增了对泰语、印尼语等四种语言的支持,目前已在13种语言的客观评测中保持业内领先地位 。

不止克隆更能“无中生有”:阿里通义连发两款AI语音模型,开启声音的“Freestyle”时代

从零造音:成为声音世界的“导演”

如果说Fun-CosyVoice3.5是一位出色的模仿者,那么此次同步上线的Fun-AudioGen-VD则更像一位富有想象力的“声音导演”。作为无参考音频的音色设计模型,它支持从零开始构建声音,并能将人物音色与场景融为一体 。

这款模型的能力极为细腻:创作者不仅可以定义声音的性别、年龄、口音等基础属性,还能赋予其“沙哑”、“清亮”的音质特征,甚至模拟出“表面镇定但内心颤抖”这类极其复杂的心理状态表达 。更令人惊叹的是,Fun-AudioGen-VD能同步生成声音所处的“世界”——无论是叠加城市喧嚣的背景环境音,还是模拟大教堂、金属牢房的空间混响效果,都能一键完成,为游戏、有声书、播客及影视后期制作提供了强大的沉浸式音频解决方案 。

即日起,开发者及用户可通过阿里云百炼平台调用这两款最新模型。业内分析认为,通义实验室此次发布的双模型,通过DiffRO和GRPO等先进强化学习算法的应用,在语音准确率、韵律自然度及音质方面均实现了显著提升,不仅降低了高质量语音创作的门槛,更预示着AI语音技术将在人机交互领域开启更广阔的想象空间 。

不止克隆更能“无中生有”:阿里通义连发两款AI语音模型,开启声音的“Freestyle”时代

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...