苹果颠覆视频生成游戏规则:STARFlow-V模型开启“归一化流”新纪元

一个不依靠主流扩散模型,而采用全新“归一化流”技术的视频生成模型,正在挑战OpenAI的Sora、谷歌的Veo等巨头建立的行业标准。

近期,苹果公司正式开源发布了其全新的视频生成模型STARFlow-V。该模型放弃当前业界主流的扩散模型技术路径,转而采用“归一化流”技术,旨在解决长视频生成中的稳定性和错误累积问题。

在技术实现上,STARFlow-V能够处理文本转视频、图像转视频以及视频编辑等多种任务而无需修改架构。


01 技术革新

STARFlow-V标志着视频生成领域的一次技术路径转型。与当前主流的扩散模型通过多步迭代去除噪声生成视频的方式不同,苹果选择了完全不同的“归一化流”技术路线。

这项技术的核心是直接学习随机噪声与复杂视频数据之间的数学变换,而非逐步去噪的过程。

这种根本性差异带来了几大优势:训练只需一次完成,无需多次小迭代;生成时无需迭代计算,直接从随机值生成视频。

STARFlow-V通过优化并行处理和重用先前帧数据,生成五秒视频的速度比初始版本提高了约15倍。苹果表示,这是首个在视觉质量和生成速度上能够与扩散模型相媲美的同类技术。

02 架构设计

生成长序列视频一直是AI技术面临的难题,因为逐帧生成容易导致误差累积。STARFlow-V采用双重架构方法来缓解这一问题。

一个组件专门管理跨帧的时间序列,确保运动的一致性;另一个组件则优化单个帧内的细节,提升画面质量。

通过这种全局-局部设计,STARFlow-V有效减少了随着帧数增长的误差积累,从而保证视频的连贯与稳定。

在训练过程中,研究团队加入了少量噪声以稳定优化过程。虽然这可能导致视频略显颗粒感,但并行的“因果去噪网络”会在保留运动一致性的同时去除残余噪声。

03 性能表现

STARFlow-V在VBench基准测试中获得了79.7分。虽然这一成绩略低于Veo3的85.06分和HunyuanVideo的83.24分。

但明显优于其他自回归模型,特别是在空间关系和人体表征方面表现出色

与NOVA和Self-Forcing等竞争对手相比,STARFlow-V在长达30秒的演示片段中保持了稳定性。而竞争模型往往在几秒后便开始出现模糊或色彩失真。

模型能够原生支持多种生成任务,包括文本到视频、图像到视频以及视频到视频编辑,无需为每种任务重新训练或修改结构。

04 局限与挑战

尽管技术创新显著,STARFlow-V目前仍存在一些局限。它的输出分辨率相对较低,为640×480像素,帧率为每秒16帧

该模型尚无法在标准显卡上实时使用

更关键的是,该模型在物理模拟方面存在明显的缺陷。演示中出现了“章鱼穿过玻璃”和“石头凭空出现”等不符合物理规律的现象。

苹果公司也承认,模型的质量并未随着数据量的增加而呈现可预测的提升。这意味着简单的数据扩展可能无法直接解决当前的质量瓶颈。

05 开源战略

苹果已经将STARFlow-V的相关代码在GitHub上发布,并计划随后在Hugging Face上公布模型权重。这一开源举动与苹果近年来在多模态AI领域的开放策略一脉相承。

今年9月,苹果曾在Hugging Face上发布了FastVLM与MobileCLIP2两条多模态主线。这些模型专注于端侧AI应用,在iPhone等设备上实现高效的视觉语言处理。

值得关注的是,虽然苹果将STARFlow-V标榜为“开源”,但其许可条款对商业用途与再分发有严格限制,不属于完全自由可商用的开源模式。

06 未来展望

苹果研究团队已经规划了STARFlow-V的改进方向。未来工作将专注于加快计算速度、缩小模型规模,以及使用更注重物理精确性的训练数据。

从更广阔的视角看,视频生成技术正朝着两个方向发展:一是以Sora、Veo为代表的扩散模型路线,追求更高的视觉保真度;二是以STARFlow-V为代表的归一化流路线,强调生成效率和稳定性。

随着多模态AI技术的快速发展,业界专家预测2026年将是多模态AI、互动视频世界和可靠AI代理快速发展的关键一年

苹果在这一领域的持续投入,特别是将先进AI技术整合到iPhone等消费设备中的努力,预示着未来移动设备上实时高质量视频生成的可能性


行业观察者指出,尽管STARFlow-V在分辨率参数上不及顶级商业模型,但其独特的归一化流架构和开源策略,已经撼动了由扩散模型主导的视频生成领域。

当谷歌、OpenAI和Runway不断优化扩散模型时,苹果选择了一条更为艰深但潜力巨大的技术路径。随着代码的公开和开发者社区的参与,归一化流技术或许将在专业视频制作、教育内容和个性化媒体领域找到独特的应用场景。

苹果的下一个挑战是克服物理模拟的不足,同时提升输出分辨率,使STARFlow-V不仅能生成稳定的视频,更能创造符合物理规律的逼真世界。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...