一张自拍、一幅场景、一种风格,三张图片同时输入,8秒高清视频瞬间生成——谷歌Gemini Veo 3.1正在重新定义视频创作。
通过同时上传三张参考图片,AI就能自动提取人物、场景与风格特征,融合成一段8秒的1080p高清视频。这就是谷歌为Gemini Pro/Ultra订阅用户带来的Veo 3.1全新“Ingredients to Video”模式。
这项创新解决了AI视频生成中长期存在的角色一致性难题,让普通人也能轻松制作出拥有电影级一致角色与连贯光影的短视频内容。
01 三图融合:视频创作进入元素定制时代
谷歌Veo 3.1的最新更新带来了名为“Ingredients to Video”的多图参考模式,该功能目前正逐步向所有Gemini Pro/Ultra订阅用户推广。
用户可同时上传最多三张参考图像,分别作为人物角色、场景背景和视觉风格的参考素材。
谷歌在其官方演示中展示了一个典型案例:使用一张人物的不同角度自拍作为角色参考。
一张赛博城市背景图作为环境参考,再加上一张油画风格图片作为艺术风格参考,最终生成了一段“印象派未来街头漫步”的8秒短片。
这一功能显著提升了用户对生成视频内容的控制精度。通过多图参考,AI能够更好地理解并保持角色外观的一致性。
准确应用特定艺术风格,并确保场景与用户设想的高度匹配。
02 技术突破:跨帧一致性难题获解
多图参考功能的背后,是Veo 3.1在跨帧角色一致性和光影连贯性方面的重大技术突破。
在AI视频生成领域,保持角色在不同帧中的统一外观一直是个技术难点。而Veo 3.1通过多图像输入,为模型提供了更全面的视觉蓝图。
从而解决了这一长期困扰AI视频生成的“视觉漂移”问题。

除了多图参考功能,Veo 3.1还支持首尾帧控制及视频延伸功能,用户可以更精准地控制视频的起始与结束画面,创造出更加平滑的过渡效果。
新模型还同步输出原生环境音,增强了视频的沉浸感。
03 全量开放:普惠视频创作者
谷歌此次相当大方,多图参考功能已经全量开放给Gemini Pro/Ultra订阅用户,生成配额和现有的订阅额度一致,没有公布额外的付费方案。
这一策略无疑降低了专业级视频生成技术的使用门槛。
这项功能最初于今年10月在谷歌的专业AI电影制作工具Flow中首次亮相。
而现在,它已被集成到普通的Gemini应用程序中,使更广泛的用户群体能够直接接触到这一先进技术。
根据谷歌方面的消息,这一新功能已经从11月14日开始推广,预计将在下一周内覆盖所有付费订阅用户。
04 安全措施:隐形水印护航版权
随着AI生成内容的普及,版权与安全问题日益凸显。谷歌在Veo 3.1中内置了SynthID隐形水印技术。
这一技术可在不影响视频观看体验的前提下,为生成的视频打上独特的标识,有助于保护视频的版权和安全性。
这一安全措施显示出谷歌在推进AI视频技术的同时,也在积极应对相关的伦理与安全问题,为创作者提供更加安全可靠的创作环境。
Veo 3.1的多图参考功能不仅仅是一项技术更新,它代表了AI视频生成从“大致符合”到“精确控制”的转变。
以往AI视频生成中常见的角色变形、风格不一致等问题,现在通过三张图片的参考就能得到显著改善。
当视频创作的门槛从专业的剪辑软件降低到一个简单的图片上传界面,我们可能正在见证又一轮创意表达的革命。

关注 “悠AI” 更多干货技巧行业动态