谷歌DeepMind发布SIMA 2,智能体学会自主思考征战虚拟世界

AI广播站3个月前发布 小悠
40 0 0

游戏屏幕前,一个无需人类操控的智能体正自如穿梭在未知的3D环境中,理解指令、规划路径、执行任务,仿佛拥有自己的意识。

近日,谷歌DeepMind宣布推出SIMA 2预览版,这是其Scalable Instructable Multiworld Agent(可扩展可指导多世界代理) 的升级版本。

这款人工智能体凭借Gemini 2.5 Flash – lite模型的加持,在任务成功率上比第一代SIMA提高了近一倍,在从未见过的新环境中也能完成复杂指令,甚至具备自我改进能力。


01 从执行到思考

SIMA 2的核心突破在于它从简单的指令执行者,转变为了能够理解环境并自主推理的虚拟世界参与者。

据DeepMind介绍,SIMA 2是“我们最强大的虚拟3D世界AI代理”,它不仅能遵循基本指令,更能在交互环境中思考、理解和采取行动。

用户可以通过文本、语音甚至图像与它交流,使它更像一个协作伙伴,而非单纯的任务执行者。

在《No Man’s Sky》等测试环境中,SIMA 2展现出了强大的能力。它可以通过阅读环境文本、识别颜色和符号,自主执行“前往红色房屋”或“砍伐树木”等指令,甚至还能理解emoji组合命令。

02 跨界适应与自我进化

SIMA 2的另一个飞跃是它能在完全陌生的虚拟世界中行动

研究团队将SIMA 2置入由生成式世界模型Genie创造的全新环境中,这些场景可能来自一张照片、一句提示语,或一段玩家建立的内容,完全没有既定规则或已知训练资料。

令人惊讶的是,SIMA 2仍能判断自身所在位置、辨识场景中的物件,并推理出下一步应该采取的行动。

谷歌DeepMind发布SIMA 2,智能体学会自主思考征战虚拟世界

这种能力的关键在于SIMA 2首次引入了自生成数据循环机制

当进入新场景后,系统会调用独立的Gemini模型批量生成任务,接着由内部奖励模型打分,筛选出高质量的轨迹用于持续微调。

如此一来,无需额外的人工标注,智能体的表现就能不断提升。

03 为现实世界机器人铺路

DeepMind的终极目标远不止于游戏领域。SIMA 2在虚拟环境学习到的技能,未来可以迁移到实体机器人身上,让机器人能在真实世界运作。

DeepMind资深研究工程师Frederic Besse解释:“如果我們思考一个系统要在真实世界执行任务,例如机器人,基本上需要两大能力。”

第一是高层次的的理解与推理能力:能看懂现实世界的状况、理解要完成什么、并推理出行动计划。

第二是低层次的控制能力:像是操作机器人的关节、轮子等具体的物理动作。

不过,SIMA 2目前主要聚焦于高层决策方面,并不涉及机械关节、轮子等底层控制。

DeepMind同期训练的机器人基础模型采用了不同的技术路线,至于这两者如何融合,目前还没有确定。

04 挑战与前景并存

尽管SIMA 2表现令人印象深刻,但研究人员坦言它仍有局限。

包括在处理非常长的多步骤任务时遇到困难、在有限的记忆窗口内工作,以及面临3D AI系统常见的视觉解读挑战。

加拿大亚伯达大学的AI研究员Matthew Guzdial对SIMA 2的能力持一定保留态度。

他对SIMA 2所学的有多少能真正转移到机器人身上提出了疑问。

然而,不可否认的是,SIMA 2的进步代表着向人工通用智能(AGI) 迈出了重要一步。

它的自我演进能力和跨环境适应性,为构建能在开放世界中自如运作的通用智能体奠定了坚实基础。


SIMA 2的自我演进能力正在缩小虚拟与现实的鸿沟。当智能体不再满足于执行命令,而是学会理解、推理并自主决策,我们距离那个能够无缝衔接数字与物理世界的通用人工智能,又近了一步。

未来,这种技术可能让机器人在工厂、仓库甚至家庭中,像今天的SIMA 2在虚拟世界中一样游刃有余。

谷歌DeepMind发布SIMA 2,智能体学会自主思考征战虚拟世界

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...