美团开源LongCat-Video,突破AI长视频生成瓶颈

AI广播站4小时前发布 小悠
5 0 0

一段由AI生成的5分钟连贯视频,正悄然打破内容创作的传统边界。

10月27日,美团LongCat团队正式发布并开源LongCat-Video视频生成模型,以统一模型在文生、图生视频基础任务上达到开源最先进水平

该模型依托原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性,在长视频生成领域具备显著优势。


01 突破长视频生成瓶颈

近年来,“世界模型”因让人工智能真正理解、预测甚至重构真实世界,被业界视作通往下一代智能的核心引擎

作为能够建模物理规律、时空演化与场景逻辑的智能系统,“世界模型”赋予人工智能“看见”世界运行本质的能力。

视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。

正因如此,美团LongCat团队认为,此次发布的视频生成模型,是为探索“世界模型”迈出的第一步

未来,凭借精准重构真实世界运行状态的能力,LongCat模型也会融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中。

02 三位一体的技术架构

作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新通过 “条件帧数量” 实现任务区分。

该模型原生支持三大核心任务:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成完整任务闭环。

在文生视频方面,LongCat-Video可生成720p、30fps高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉呈现能力达开源领先级别。

图生视频则严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,内容一致性与动态自然度表现优异。

而视频续写作为LongCat-Video的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。

03 五分钟长视频的奥秘

依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。

同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性。

这一技术突破不仅提升了视频生成的质量,也为自动驾驶、具身智能等深度交互场景提供了坚实的技术基础。

模型还结合块稀疏注意力与条件token缓存机制,大幅降低长视频推理冗余——即便处理93帧及以上长序列,仍能兼顾效率与生成质量稳定。

04 三重优化推动效率飞跃

针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过三重优化实现效率突破。

通过 “二阶段粗到精生成+块稀疏注意力+模型蒸馏” 这三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。

这一显著的速度提升,使得长视频生成从“实验室概念”走向“实用化工具”成为可能。

技术报告显示,136亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别

在VBench等公开基准测试中,LongCat-Video在文本对齐度、运动连贯性等关键指标上展现显著优势。

05 连接原子与比特世界

美团LongCat团队表示,LongCat-Video的发布不仅代表着技术的进步,更是美团在智能创作领域迈出的重要一步。

随着这一模型的广泛应用,未来的长视频创作将变得更加简单而富有创意。

据了解,为了让更多人体验这一先进技术,美团已在GitHub和Hugging Face上发布了LongCat-Video的相关资源。

该项目不仅为个人创作者提供了强大的工具,也为整个视频创作行业注入了新的活力。

未来,凭借精准重构真实世界运行状态的能力,LongCat模型将成为公司更好连接 “比特世界”和“原子世界” 的技术基础。


在内容创作领域,一分钟视频曾是一道难以逾越的门槛。多数AI视频工具生成的内容仅限于数十秒,且常伴随画面跳跃、物理运动失真的问题。

LongCat-Video稳定生成5分钟连贯视频的能力,不仅突破了技术瓶颈,更让创作者看到了从“秒级剪辑”迈向“分钟级创作”的可能性。

正如美团LongCat团队所展望的,这场技术变革的意义远超视频生成本身,更是构建能够理解和模拟物理世界的人工智能的重要一步

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...