游戏屏幕前,一个无需人类操控的智能体正自如穿梭在未知的3D环境中,理解指令、规划路径、执行任务,仿佛拥有自己的意识。
近日,谷歌DeepMind宣布推出SIMA 2预览版,这是其Scalable Instructable Multiworld Agent(可扩展可指导多世界代理) 的升级版本。
这款人工智能体凭借Gemini 2.5 Flash – lite模型的加持,在任务成功率上比第一代SIMA提高了近一倍,在从未见过的新环境中也能完成复杂指令,甚至具备自我改进能力。
01 从执行到思考
SIMA 2的核心突破在于它从简单的指令执行者,转变为了能够理解环境并自主推理的虚拟世界参与者。
据DeepMind介绍,SIMA 2是“我们最强大的虚拟3D世界AI代理”,它不仅能遵循基本指令,更能在交互环境中思考、理解和采取行动。
用户可以通过文本、语音甚至图像与它交流,使它更像一个协作伙伴,而非单纯的任务执行者。
在《No Man’s Sky》等测试环境中,SIMA 2展现出了强大的能力。它可以通过阅读环境文本、识别颜色和符号,自主执行“前往红色房屋”或“砍伐树木”等指令,甚至还能理解emoji组合命令。
02 跨界适应与自我进化
SIMA 2的另一个飞跃是它能在完全陌生的虚拟世界中行动。
研究团队将SIMA 2置入由生成式世界模型Genie创造的全新环境中,这些场景可能来自一张照片、一句提示语,或一段玩家建立的内容,完全没有既定规则或已知训练资料。
令人惊讶的是,SIMA 2仍能判断自身所在位置、辨识场景中的物件,并推理出下一步应该采取的行动。

这种能力的关键在于SIMA 2首次引入了自生成数据循环机制。
当进入新场景后,系统会调用独立的Gemini模型批量生成任务,接着由内部奖励模型打分,筛选出高质量的轨迹用于持续微调。
如此一来,无需额外的人工标注,智能体的表现就能不断提升。
03 为现实世界机器人铺路
DeepMind的终极目标远不止于游戏领域。SIMA 2在虚拟环境学习到的技能,未来可以迁移到实体机器人身上,让机器人能在真实世界运作。
DeepMind资深研究工程师Frederic Besse解释:“如果我們思考一个系统要在真实世界执行任务,例如机器人,基本上需要两大能力。”
第一是高层次的的理解与推理能力:能看懂现实世界的状况、理解要完成什么、并推理出行动计划。
第二是低层次的控制能力:像是操作机器人的关节、轮子等具体的物理动作。
不过,SIMA 2目前主要聚焦于高层决策方面,并不涉及机械关节、轮子等底层控制。
DeepMind同期训练的机器人基础模型采用了不同的技术路线,至于这两者如何融合,目前还没有确定。
04 挑战与前景并存
尽管SIMA 2表现令人印象深刻,但研究人员坦言它仍有局限。
包括在处理非常长的多步骤任务时遇到困难、在有限的记忆窗口内工作,以及面临3D AI系统常见的视觉解读挑战。
加拿大亚伯达大学的AI研究员Matthew Guzdial对SIMA 2的能力持一定保留态度。
他对SIMA 2所学的有多少能真正转移到机器人身上提出了疑问。
然而,不可否认的是,SIMA 2的进步代表着向人工通用智能(AGI) 迈出了重要一步。
它的自我演进能力和跨环境适应性,为构建能在开放世界中自如运作的通用智能体奠定了坚实基础。
SIMA 2的自我演进能力正在缩小虚拟与现实的鸿沟。当智能体不再满足于执行命令,而是学会理解、推理并自主决策,我们距离那个能够无缝衔接数字与物理世界的通用人工智能,又近了一步。
未来,这种技术可能让机器人在工厂、仓库甚至家庭中,像今天的SIMA 2在虚拟世界中一样游刃有余。

关注 “悠AI” 更多干货技巧行业动态