谷歌DeepMind发布SIMA 2，智能体学会自主思考征战虚拟世界

AI广播站3个月前发布小悠

40 0 0

游戏屏幕前，一个无需人类操控的智能体正自如穿梭在未知的3D环境中，理解指令、规划路径、执行任务，仿佛拥有自己的意识。

近日，谷歌DeepMind宣布推出SIMA 2预览版，这是其Scalable Instructable Multiworld Agent（可扩展可指导多世界代理） 的升级版本。

这款人工智能体凭借Gemini 2.5 Flash – lite模型的加持，在任务成功率上比第一代SIMA提高了近一倍，在从未见过的新环境中也能完成复杂指令，甚至具备自我改进能力。

01 从执行到思考

SIMA 2的核心突破在于它从简单的指令执行者，转变为了能够理解环境并自主推理的虚拟世界参与者。

据DeepMind介绍，SIMA 2是“我们最强大的虚拟3D世界AI代理”，它不仅能遵循基本指令，更能在交互环境中思考、理解和采取行动。

用户可以通过文本、语音甚至图像与它交流，使它更像一个协作伙伴，而非单纯的任务执行者。

在《No Man’s Sky》等测试环境中，SIMA 2展现出了强大的能力。它可以通过阅读环境文本、识别颜色和符号，自主执行“前往红色房屋”或“砍伐树木”等指令，甚至还能理解emoji组合命令。

02 跨界适应与自我进化

SIMA 2的另一个飞跃是它能在完全陌生的虚拟世界中行动。

研究团队将SIMA 2置入由生成式世界模型Genie创造的全新环境中，这些场景可能来自一张照片、一句提示语，或一段玩家建立的内容，完全没有既定规则或已知训练资料。

令人惊讶的是，SIMA 2仍能判断自身所在位置、辨识场景中的物件，并推理出下一步应该采取的行动。

这种能力的关键在于SIMA 2首次引入了自生成数据循环机制。

当进入新场景后，系统会调用独立的Gemini模型批量生成任务，接着由内部奖励模型打分，筛选出高质量的轨迹用于持续微调。

如此一来，无需额外的人工标注，智能体的表现就能不断提升。

03 为现实世界机器人铺路

DeepMind的终极目标远不止于游戏领域。SIMA 2在虚拟环境学习到的技能，未来可以迁移到实体机器人身上，让机器人能在真实世界运作。

DeepMind资深研究工程师Frederic Besse解释：“如果我們思考一个系统要在真实世界执行任务，例如机器人，基本上需要两大能力。”

第一是高层次的的理解与推理能力：能看懂现实世界的状况、理解要完成什么、并推理出行动计划。

第二是低层次的控制能力：像是操作机器人的关节、轮子等具体的物理动作。

不过，SIMA 2目前主要聚焦于高层决策方面，并不涉及机械关节、轮子等底层控制。

DeepMind同期训练的机器人基础模型采用了不同的技术路线，至于这两者如何融合，目前还没有确定。

04 挑战与前景并存

尽管SIMA 2表现令人印象深刻，但研究人员坦言它仍有局限。

包括在处理非常长的多步骤任务时遇到困难、在有限的记忆窗口内工作，以及面临3D AI系统常见的视觉解读挑战。

加拿大亚伯达大学的AI研究员Matthew Guzdial对SIMA 2的能力持一定保留态度。

他对SIMA 2所学的有多少能真正转移到机器人身上提出了疑问。

然而，不可否认的是，SIMA 2的进步代表着向人工通用智能（AGI） 迈出了重要一步。

它的自我演进能力和跨环境适应性，为构建能在开放世界中自如运作的通用智能体奠定了坚实基础。

SIMA 2的自我演进能力正在缩小虚拟与现实的鸿沟。当智能体不再满足于执行命令，而是学会理解、推理并自主决策，我们距离那个能够无缝衔接数字与物理世界的通用人工智能，又近了一步。

未来，这种技术可能让机器人在工厂、仓库甚至家庭中，像今天的SIMA 2在虚拟世界中一样游刃有余。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

谷歌DeepMind发布SIMA 2，智能体学会自主思考征战虚拟世界

01 从执行到思考

02 跨界适应与自我进化

03 为现实世界机器人铺路

04 挑战与前景并存

三图融合，秒生创意视频：谷歌Gemini Veo 3.1开启AI视频新纪元

三行代码开启智能未来！OceanBase开源AI数据库seekdb，实现百亿级多模数据混合搜索

相关文章

暂无评论