一台机械臂在实验室里灵巧地抓取积木,而控制它的算法可能来自千里之外的另一个国家;科研人员不需购买昂贵设备,就能在真实机器人上验证算法——这不再是科幻场景,而是RoboChallenge平台带来的革命性变革。
近日,全球首个大规模、多任务真实物理环境机器人操作基准测试——RoboChallenge正式发布。这一由Dexmal原力灵机与全球最大AI开源平台Hugging Face共同发起的项目,被业界誉为具身智能领域的“ImageNet时刻”,为解决机器人算法从仿真到现实的评估难题提供了统一、开放的“公平竞技场”。
01 打破实验室壁垒
在RoboChallenge出现之前,具身智能领域长期缺乏统一、开放且可复现的基准测试方法。
各个研究团队通常在自建的封闭环境中测试模型,导致结果难以公平比较和复现。
高昂的硬件成本更是将许多研究者拒之门外,一台像样的双臂机器人动辄30-50万元人民币。
同时,传统的仿真测试环境无法复刻真实世界的复杂性,导致“模拟到现实的落差”。
RoboChallenge的推出,正是为了打破这些阻碍具身智能发展的壁垒。
02 “远程机器人”创新模式
RoboChallenge最具革命性的创新是其“远程机器人”测试方法。
这种方法允许用户通过API接口远程控制真实机器人,而无需提交模型或Docker镜像。
研究人员只需在网络另一端编写代码,便可以直接操控远在千里之外的实体机器人执行任务,实时获得带毫秒级时间戳的传感器数据反馈。
这种设计不仅克服了环境兼容性问题,还大幅降低了研究门槛,让资源有限的高校和初创团队也能进行高质量的真机实验。
03 Table30:桌面上的大考验
RoboChallenge首期推出了名为Table30的基准测试集,包含30个精心设计的桌面操作任务,远超行业常见的3-5个任务量。
这些任务涵盖了精准三维定位、处理遮挡与多视角能力、时间依赖与记忆能力、多阶段与长远规划、物体识别、双手协同和应对柔性物体等七大核心能力维度。

与传统二值化评估不同,Table30采用了创新的进度评分系统,将任务分解为多个阶段,根据完成情况授予进度点,并对不必要的重试行为进行扣分。
即使任务最终未完全成功,过程中的有效进展也能被客观衡量。
04 初期测试揭示算法差距
平台已对多种主流开源VLA模型进行了首轮测试,包括Physical Intelligence的Pi系列和微软的CogACT等。
结果显示,当前最先进的Pi0.5模型虽然表现最佳,但仍无法在所有任务上都取得较高的成功率。
测试尤其暴露了现有模型在处理柔性物体和时间依赖任务上的明显短板。
这些结果表明,尽管具身智能技术取得了显著进展,但要实现通用机器人技术,仍有很长道路要走。
05 构建开放研究生态
RoboChallenge坚持全面开放原则,向全球研究者免费提供评测服务。
平台公开了所有任务的演示数据——每个任务提供高达1000条示范轨迹,以及测试中间结果与执行日志,确保研究的可复现性与透明度。
为了确保评测的公平性,平台还创新性地提出 “视觉输入匹配”方法,通过实时比对参考图像来精确重置任务初始状态,保证每次测试的起点完全一致。
未来,RoboChallenge计划通过举办挑战赛、研讨会等方式,积极推动社区共建,鼓励研究者共同推进具身智能核心问题的解决。
随着RoboChallenge平台向全球研究者开放,具身智能领域正迎来自己的“ImageNet时刻”。正如计算机视觉因ImageNet而腾飞,RoboChallenge有望成为机器人算法创新的核心引擎,推动具身智能从实验室演示走向现实世界应用。
在不久的将来,当智能机器人在家庭、工厂和医院中自如工作时,人们或许会回想起这个真机基准测试诞生的时刻——它点亮了通往通用机器人技术的道路,让算法在真实物理世界中的每一次抓取、每一次移动都有了精准的衡量标尺。

关注 “悠AI” 更多干货技巧行业动态
