火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，…

昨日，火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持将文本或音频任一模态作为输入，端到端生成完整音频作品。这款模型的核心突破在于：用一条Prompt就能搞定对白、音效、背景音乐的全要素生成，彻底告别人工多轨剪辑的传统工作流。

一句话变身"音频导演"，省去所有后期

火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，角色声音 10 分钟都不"串戏"

过去，一段成片级音频作品意味着对白、音效、配乐逐条生成、手动对齐、多轨混音，流程繁琐且高度依赖后期技术能力。豆包音频生成模型1. 0 将这一切压缩进一条Prompt：用户可以在单条指令中同时定义多个角色的台词、语气和情绪节奏，嵌入笑声、叹息、停顿、方言口音等细节，背景音乐与环境音效同步生成，输出即成品。一位创作者敲下一段描述，就能直接收到可上线的有声剧、播客节目或品牌音频。

长音频不"串戏"，角色声音首尾如一

长音频创作中最令创作者头疼的难题，是前后一致性——角色在第 1 分钟和第 10 分钟听起来是否像同一个人。豆包音频生成模型1. 0 实现了文生音频与参考音频的深度联动，在长音频中保持音色高度统一，创作者无需逐段比对、反复修音。当前模型单次支持 2 分钟音频创作，并可通过多次延长功能在长程生成中保持音色一致，满足有声书、播客、长剧集等场景需求。

此外，模型还支持音色与风格的解耦控制，同一音色可适配不同情绪和语境，甚至实现"一声多角"——同一个声音在不同角色设定下呈现差异化表达，显著提升角色配音和创意音频生产的灵活性。目前火山方舟已开启API邀测，个人用户可在体验中心享有 30 分钟创作额度，豆包音频生成模型1. 0 也即将上线剪映、即梦、番茄等产品。

OpenAI在ChatGPT中测试新型语音模型Bidi 1，用户已在网页及App端发现。它打破传统线性问答模式，支持实时打断与插话，实现更自然流畅的双向对话，预示语音交互的“降维打击”式进化，公司正筹备更大规模测试。

美国测试显示，Anthropic公司的AI模型Mythos在数小时内检出政府高机密系统多处漏洞，效率远超传统人工。参议员沃纳在听证会上引述国安局上将拉德的说法，证实该工具仅数小时便完成漏洞定位，凸显AI在网络安全领域的潜力。

美国AI公司Legion因政府禁令起诉联邦政府。由于Anthropic依出口管制规定禁止向外国公民提供最先进AI模型，导致Legion加拿大籍开发团队失去核心工具，公司称面临生存危机，已在华盛顿联邦法院提起诉讼。

AI编程工具Cursor将推出首个完全自主训练的AI基础模型，同步发布Git平台Origin与iOS测试版移动应用。此举标志着Cursor从单一代码编辑器升级为面向人类和AI智能体的综合性开发者生态平台。

火山引擎发布豆包音频生成模型1.0，以“多模态参考生成”和“长时音色一致性”两大核心技术，简化传统音频后期流程，可一站式生成对白、音效与配乐，提升创作效率。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，…

Cursor发布全自主训练大模型，同步推出全新Git平台O…

豆包音频生成模型1. 0 发布，开启“音频导演”时代

相关文章

暂无评论