谷歌CEO桑达尔·皮查伊在社交媒体上分享了一组由静态拿铁拉花图案“活”起来的动态视频,这标志着谷歌AI视频生成模型迎来了重大进化。
谷歌刚刚宣布对其AI视频生成模型Veo 3.1进行重要功能升级,这次更新直击创作者痛点。
新增的“多图参考一致性”功能允许用户上传最多三张参考图像,AI将严格遵循图像中角色、物体与场景的视觉特征生成视频,从根本上解决了AI生成内容中角色“变脸”、物体“变形”的老毛病。
01 技术突破
此次Veo 3.1升级的技术核心在于其全新的多图像参考支持系统。该系统允许用户提供最多三张参考图像,模型会提取图像中的角色主体、背景环境和纹理材质等关键视觉元素。
与以往仅靠文字提示的生成方式不同,这种基于参考图像的方法能确保生成视频中的人物外貌、物体形态和场景风格与原始素材保持高度一致。
谷歌DeepMind官方分享的案例显示,即使是静态的拿铁拉花图案,也能被转化为具有流畅动态的动画序列,证明了该模型在保持视觉一致性的同时,赋予静态图像生动表现力的能力。
这项技术改进意味着,品牌可以确保其吉祥物在所有AI生成的宣传视频中看起来完全相同,而电影制作人则能让虚拟角色在不同场景中保持连贯的外貌特征。
02 竖屏优化
谷歌此次升级特别加入了原生9:16竖屏视频生成功能,直接瞄准了移动端短视频内容创作的市场需求。
用户在使用“多图参考”功能时,可以直接指定输出垂直比例的视频,无需后期裁剪或重新构图,生成的视频天然适配Instagram Reels、TikTok和YouTube Shorts等平台。
这一功能更新并非孤立存在,而是与谷歌生态系统深度整合。升级后的Veo 3.1功能现已登陆Gemini应用,并首次集成到YouTube Shorts和YouTube Create应用中。
据统计,目前超过80%的短视频消费发生在移动设备上,而垂直格式的内容在观看完成率和互动率上均显著优于传统横屏视频。
03 画质跃升
Veo 3.1此次还引入了增强的1080p和4K超分辨率技术,将AI生成视频的画质推向了新高度。
虽然Veo模型的基础生成分辨率仍为720p,但通过先进的AI升频技术,用户现在可以获得高达4K分辨率的输出,满足专业制作的需求。
高分辨率输出主要面向专业和企业用户,通过Flow by Google、Gemini API和Vertex AI等平台提供。
这意味着广告公司、电影工作室和内容创作者现在可以利用Veo 3.1生成适用于大屏幕播放的高质量视频素材,显著降低专业视频制作的门槛和成本。
04 市场布局
Veo 3.1的升级正值AI视频生成市场竞争白热化之际。随着OpenAI的Sora和Runway的Gen-3等模型不断推高行业标准,谷歌此次更新显然意在巩固其市场地位。
Statista数据显示,全球AI在媒体和娱乐市场的规模预计到2030年将达到994.8亿美元,年复合增长率高达26.9%。Veo 3.1的改进很可能加速AI视频生成技术在创意产业的普及。
谷歌采取的是平台集成战略,将Veo 3.1深度整合到自家产品生态中。普通用户可以通过Gemini应用和YouTube直接使用这些新功能,而开发者和企业用户则可通过API将其集成到自己的应用中。
这种分层服务模式既降低了个人创作者的使用门槛,又为专业用户提供了高度可定制化的解决方案。
05 行业影响
Veo 3.1的升级预计将对多个行业产生深远影响。在广告营销领域,品牌现在可以快速生成保持视觉一致性的系列广告视频,大幅降低制作成本和时间。
电影和游戏行业则可以将这一技术用于预可视化和故事板制作,导演能够通过提供角色参考图像,快速生成动态场景预览,显著提高前期制作效率。
教育行业也能从中受益,教师可以创建具有一致虚拟教师形象的教学视频,提高学习体验的连贯性。
AI生成视频的伦理和安全问题也得到谷歌的重视。所有通过Veo生成的视频都将包含嵌入式SynthID水印,用户可以通过Gemini应用验证视频是否由谷歌AI生成,这一措施有助于防止深度伪造内容的滥用。
视频中的人物在多个场景切换中始终保持同一张脸,背景里的建筑纹理从始至终没有发生畸变,一杯静态的拿铁咖啡在AI驱动下泛起栩栩如生的波纹。
谷歌正将Veo 3.1打造成一个从手机竖屏小视频到影院级4K内容的全能型AI视频生成工具。随着这些新功能逐步向全球用户开放,一场由AI驱动的视觉内容创作革命已经悄然拉开序幕。
当用户昨天还在为AI生成视频中随机变化的人物面孔而苦恼时,今天的Veo 3.1已经能够确保角色“从一而终”。这场变革或许将重新定义“创作者”的范围——专业电影制作人与普通社交媒体用户之间的技术鸿沟,正在被AI快速填平。

关注 “悠AI” 更多干货技巧行业动态