从声音克隆到角色永存:AI双雄同日亮剑,开启生成式AI新战局

上海一所小学的教室里,学生们正通过耳机聆听用当地方言朗读的英语单词,而远在千里之外的视频制作工作室,一位创作者轻点鼠标,便让同一个数字角色在不同风格的视频片段中保持了完全一致的形象。

2025年12月8日,中国的AI赛道迎来了两场备受瞩目的产品发布。阿里巴巴正式推出其Qwen3系列的最新成员——主打“零样本、多角色、跨语言”的Qwen3-TTS语音合成模型,而同一天,快手旗下的可灵AI则宣布为O1多模态视频模型上线“主体库”功能,为AI视频创作赋予“长期记忆”。


01 技术突破

阿里巴巴Qwen3-TTS的推出,标志着语音合成技术正从“可听懂”向“可角色化”的深刻变革迈进。

该模型在技术指标上表现抢眼,在权威的多语言语音合成公开测试集上,其英文词错误率低至2.8%,中文更是达到1.9%,较Azure TTS等主流商用模型分别降低了18%和24%。

背后的技术支撑是自回归声学模型与韵律预测模块的结合。这套系统能够根据文本中的标点、情感标签自动调整语调、插入停顿,实现文本到语气、节奏的“拟人化”全自动转换。

02 语音革命

Qwen3-TTS的最大亮点之一是其内置的49种高品质音色库。这些音色覆盖了从温柔少女到方言大叔,从旁白解说员到专业客服的多种场景需求。

更令人印象深刻的是,同一文本可以在这些音色间实现秒级切换,无需重新训练模型。模型还支持10种语言和9种中国方言,包括粤语、四川话和东北话等,真正打破了语音合成的语言与地域限制。

在教育领域,阿里云同步发布的“一键朗读”插件已开始显现价值。教师只需上传PPT,系统即可自动生成带有方言特色的讲解音频。

目前,这项创新应用已在上海120所中小学开展试点,帮助学生用“家乡话”听写单词。

03 视觉进化

与此同时,可灵AI推出的“主体库”功能正在解决AI视频创作中的一个长期痛点——角色一致性。该功能使O1多模态视频模型获得了“长期记忆”能力,官方宣称角色一致性可超过96%

用户只需上传单张角色图,AI即可自动生成侧脸、背面及局部细节的补充视角,并提供3组不同的方案供选择。在后续创作中,用户只需在提示词中输入“@角色名”,就可在任意镜头、光照和风格下调用同一角色。

配套的“AI智能描述”系统会提取角色的发色、服饰和风格等信息,自动生成60字以内的关键词。实验数据显示,这一功能使复杂场景的一次生成成功率提升了27%,平均节省12分钟手动调参时间。

04 行业重塑

这两项技术的发布,预计将对多个行业产生深远影响。Qwen3-TTS以其零样本落地的特性,正在降低直播、客服、教育等领域的技术门槛。

阿里巴巴已宣布,将在2025年第一季度开放“10秒音色克隆”接口,并推出80kHz超采样版本,直接瞄准播客、有声书与虚拟偶像等高端市场。

可灵AI的“主体库”则可能重塑视频创作行业。在影视预览领域,制作方可以利用该功能锁定主角造型,快速生成故事板,大幅降低外景复拍成本。

在电商领域,商家上传一次模特图后,即可批量产出多语种试穿视频,制作成本可能降至原来的1/10

05 未来竞争

对于开发者而言,两大平台都提供了友好的接入政策。Qwen3-TTS为免费层用户提供每月100万字符的合成额度,且49种音色不限调用。

付费层按0.8元/万字符计费,同时支持SSML与实时流式合成。可灵AI则提供免费版和Pro版服务,后者每月收费29元,支持无限制主体存储和600次调用。

市场分析认为,Qwen3-TTS正以开源和低成本的组合策略,冲击Azure和AWS等巨头的商业市场。而可灵AI则通过赋予AI“记忆”,在快速增长的视频生成赛道中建立了独特的技术壁垒。

可灵AI方面透露,计划在2025年第一季度上线“多人主体库”与“实时风格化”功能,进一步向长剧、广告和游戏动画管线渗透。


阿里Qwen3-TTS以其4.53的高MOS得分和低至1.9%的中文词错误率,正在重新定义语音合成的行业标准。

可灵AI的“主体库”通过超过96%的角色一致性,解决了AI生成内容中长期存在的角色“变脸”难题。

这两项同日发布的技术,分别从听觉和视觉两个维度,将生成式AI推向了更实用、更稳定的新阶段。随着音色克隆和多人主体库等功能的即将到来,一个“人人可配音、角色永不变”的AI创作新时代正拉开序幕

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...