悟界·Emu3.5大模型问世：“下一状态预测”突破多模态感知，机器人跨场景操作成真

从理解世界到预测行动，一款能够预见下一秒变化的大模型，正让机器以更接近人类的方式与物理世界互动。

今日，智源研究院正式发布了多模态世界大模型悟界·Emu3.5。这款模型以自回归方式实现了对多模态序列的“下一状态预测”，获得了可泛化的世界建模能力，标志着人工智能从数字世界向物理世界跨越的关键突破。

在场景应用层面，Emu3.5不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力，也能完成文图生成、图片编辑与时空变换。

01 下一状态预测：世界模型的核心突破

Emu3.5的核心技术创新在于其Next-State Prediction能力。

这一技术使模型能够以自回归方式对多模态序列进行预测，从而获得可泛化的世界建模能力。

这种能力类似于人类对物理世界的直观理解。

当一个咖啡杯放在桌子边缘时，人类不仅能识别“白色的咖啡杯在桌上”，更能预判“咖啡杯在桌子边缘，很危险”，并知道需要从外向内的方向拿取杯子来避免它掉落。

在应用层面，Emu3.5表现出了惊人的泛化能力。

模型能够实现跨场景的具身操作，具备泛化的动作规划与复杂交互能力。

这意味着搭载该模型的机器人可以更好地理解周围环境，并做出合理的行动规划。

从工业生产到家庭服务，从医疗辅助到商业应用，Emu3.5为机器人在复杂环境中的自主操作开辟了新的可能性。

与传统多模态模型不同，Emu3.5采用了原生多模态架构。

过去的多模态大模型往往是先学习“语言”再训练其处理图像、声音等其他模态信息的能力，而在接触其他模态信息的过程中，原本已达到“博士”水平的模型能力可能会降至“大学”甚至“高中”水平。

相比之下，原生多模态模型在训练初始阶段就将文字、图像、声音等各种模态数据都纳入其中进行训练，让模型像人一样更“融会贯通”地理解世界。

“人工智能正在加速从数字世界走向物理世界，这是对大模型技术发展趋势的判断，也是‘悟界’系列大模型推出的底层原因，”智源研究院院长王仲远早前表示。

AI从数字世界跨向物理世界时必须突破两者之间的隔阂，其中最重要的隔阂就是对空间和时间的感知。

目前全球众多人工智能机构都在积极探索原生多模态技术，而悟界·Emu3.5在这一领域的突破，为整个行业指明了发展方向。

Emu3.5的问世不仅是技术上的进步，更是AI与物理世界交互方式的重要革新。

从理解静态信息到预测动态变化，这一突破使得AI在机器人、自动驾驶、智能交互等领域的应用更加广阔。

随着Emu3.5的发布，人工智能不再仅仅是处理数字信息的工具，而是成为连接数字世界与物理世界的桥梁。当机器能够预测下一秒的世界状态，我们与AI共存的未来已触手可及。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

您必须登录才能参与评论！

立即登录

暂无评论...