开源AI新突破:艾伦研究所推出能“看懂”视频的Molmo 2模型,性能比肩科技巨头

AI广播站2个月前发布 小悠
77 0 0

一段15秒的企鹅视频被上传,AI不仅数清了画面中四只企鹅的数量,还在它们相互遮挡时准确保持了每只企鹅的身份标识——这是艾伦人工智能研究所最新开源模型带来的变革。

艾伦人工智能研究所在12月17日正式发布了Molmo 2多模态模型系列,将去年在图像理解领域树立标杆的Molmo模型能力扩展至视频和多图像理解领域。

新模型系列包含三个变体,最小版本仅40亿参数,却在关键任务上超越了去年发布的720亿参数原版模型。


01 模型突破

Molmo 2系列的推出标志着开源AI在视频理解领域迈出了关键一步。这一系列包含三个精心设计的变体,分别针对不同的应用场景和资源需求。

Molmo 2 8B和4B模型基于阿里巴巴集团的开放权重推理模型Qwen 3构建,专注于提供精准的视频定位和问答能力。

而Molmo 2-O 7B变体则建立在研究所自家开源的Olmo模型系列之上,专注于高智能和推理性能。

令人印象深刻的是,尽管规模大幅缩小,这些新模型在性能上却有了显著提升。8B模型在多个关键图像理解任务和相关基准测试中,甚至超越了原始的720亿参数Molmo模型

02 效率革命

在效率方面,Molmo 2展现出了令人瞩目的进步。4B变体尽管规模极其紧凑,仍在推理方面表现出色,它超越了Qwen 3-VL-8B等开放模型。

更值得注意的是,这一成绩是在训练数据量远少于同类模型的情况下取得的。

Molmo 2仅使用了919万个视频进行训练,而Meta公司的PerceptronLM则使用了高达7250万个视频。

这种高效率使模型能够使用更少的硬件资源进行部署,在降低成本的同时,提高了先进AI能力的可用性。

03 视频理解新维度

Molmo 2为视频理解引入了此前没有开放模型能够提供的能力。这包括准确识别事件发生的位置和时间、在复杂场景中跟踪多个物体,以及将动作连接到帧级时间线。

开源AI新突破:艾伦研究所推出能“看懂”视频的Molmo 2模型,性能比肩科技巨头

这种对物理世界的改进理解对于智能系统至关重要。Ai2首席执行官Ali Farhadi表示:“通过Olmo,我们为真正开放的AI设立了标准,去年Molmo引领行业走向指向功能;Molmo 2通过将这些能力带入视频和时间域,进一步推动了发展。”

04 开放与透明

与许多科技巨头采用的封闭或部分开放策略不同,艾伦人工智能研究所坚持完全开放的哲学。研究所不仅发布了Molmo 2模型本身,还公开了用于训练的九个新开放数据集集合,总计超过900万个多模态示例。

这些数据集涵盖密集视频字幕、长形式问答定位、跟踪和多图像推理等多个领域。仅字幕数据集就涵盖了10万个视频,每个视频都有平均超过900字的详细描述。

艾伦研究所计算机视觉团队负责人Ranjay Krishna指出:“我们知道他们采用了我们的数据,因为他们的表现和我们完全一样。”他指的是竞争对手在原始Molmo发布后迅速采用了其“指向”功能。

05 应用前景

这种深度视频理解能力为众多行业带来了革新可能。从交通摄像头分析到零售物品跟踪平台,从安全监控系统到自动驾驶车辆和机器人,Molmo 2的技术支撑将使这些系统能够更准确地感知和理解周围环境。

在近期的一次演示中,研究人员展示了Molmo 2如何分析各种短视频片段。在一段足球剪辑中,模型分析了导致进球的防守失误;在棒球剪辑中,AI识别了比赛球队和得分球员。

这些应用不仅展示了技术的实用性,也突显了AI如何能够理解复杂场景中的因果关系和时序关系。

06 技术局限与挑战

尽管取得了显著进展,Molmo 2目前仍存在一些限制。其多对象跟踪能力目前最多只能同时处理约10个物体,对于人群或繁忙公路等场景尚无法应对。

长视频分析也是一个挑战,模型在短片段上表现出色,但分析较长录像需要更多的计算资源。

在伴随Molmo 2发布的测试平台中,上传的视频被限制在15秒内。此外,与一些商业系统不同,Molmo 2目前无法处理实时视频流,只能分析录制好的视频。


随着Molmo 2的发布,艾伦人工智能研究所在其西雅图总部展示了一段演示:AI系统观看烹饪视频后,不仅识别了食材,还提取出屏幕上显示的时间信息,生成了包含分步说明的结构化菜谱

目前,所有模型、数据集和评估工具已在GitHub、Hugging Face和Ai2 Playground上公开提供。该研究所表示,训练代码将很快发布,继续推动AI技术向更加开放、透明的未来发展。

开源AI新突破:艾伦研究所推出能“看懂”视频的Molmo 2模型,性能比肩科技巨头

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...