蚂蚁灵波科技开源 LingBot-Map：支持单摄像头实时…

4月16日，蚂蚁灵波科技正式宣布开源流式三维重建模型 LingBot-Map。该模型突破性地实现了仅依靠单个普通 RGB 摄像头，即可在视频采集过程中实时估计相机位姿并重建场景三维结构。这一进展为机器人导航、自动驾驶及 AR 硬件等需要即时空间感知的应用场景，提供了高效、稳定且连续的在线建图能力。

技术层面，LingBot-Map 采用流式处理架构，改变了传统方法需预先采集完整序列再统一处理的局限，实现了边接收画面边输出定位与结构的实时交互。在国际主流评测中，该模型表现出色:在极具挑战的 Oxford Spires 数据集上，其轨迹误差仅为此前最优流式方法的三分之一，甚至优于部分离线处理算法。性能指标显示，LingBot-Map 支持约20FPS 的实时推理，并能在超万帧的长视频运行中保持精度几乎不衰减，兼顾了高精度、高速度与长时稳定性。

蚂蚁灵波科技开源 LingBot-Map：支持单摄像头实时流式三维重建

此次 LingBot-Map 的发布，是蚂蚁灵波继深度估计（Depth）、大语言动作模型(VLA)及世界模型(World)等系列成果后的又一重要动作。通过补齐实时空间理解这一核心环，蚂蚁灵波进一步夯实了其具身智能“基座”的完整性。该模型的开源不仅降低了高精度三维感知的硬件门槛，更将加速具身智能设备在复杂动态环境中的感知与决策进化。

蚂蚁灵波科技开源大规模RGB-D深度数据集LingBot-Depth-Dataset，包含300万对高质量样本，其中200万对来自真实场景采集，100万对由渲染生成，总规模达2.71TB，覆盖6款主流深度相机，是目前开源社区中规模最大的真实场景RGB-D数据集，将为具身智能、空间感知和三维视觉等领域提供更丰富的数据支撑。

3月22日，魔搭社区联合多家权威机构发布“EAI-100具身智能2025年度榜单”，系统评选该领域百项代表性成果与人物。蚂蚁灵波科技同时入选“年度10大突破”与“先锋人物20”两大核心榜单。该评选强调真实、可验证的产业贡献与创新价值。

蚂蚁灵波科技开源具身世界模型LingBot-VA，首次提出自回归视频-动作世界建模框架，将视频生成与机器人控制深度融合。模型可同步生成未来世界状态并输出动作序列，实现“边推演、边行动”。真机评测显示，该模型能有效应对复杂物理交互任务。

蚂蚁灵波科技开源世界模型LingBot-World，在视频质量、动态程度等关键指标媲美Google Genie3，为具身智能、自动驾驶等领域提供高保真、可实时操控的“数字演练场”。

蚂蚁集团旗下蚂蚁灵波科技开源具身智能大模型LingBot-VLA及相关代码，验证了模型在不同机器人间的跨本体迁移能力，已适配星海图、松灵、乐聚等多家厂商。通过其开发的后训练工具链，在8卡GPU配置下可高效部署，推动智能机器人技术发展。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

蚂蚁灵波科技开源 LingBot-Map：支持单摄像头实时…

芒果TV会员破 7560 万，自研大模型上岗 30 多档节…

阿里巴巴 ATH 推出开放世界模型 Happy Oyste…

相关文章

暂无评论