从理解世界到预测行动,一款能够预见下一秒变化的大模型,正让机器以更接近人类的方式与物理世界互动。
今日,智源研究院正式发布了多模态世界大模型悟界·Emu3.5。这款模型以自回归方式实现了对多模态序列的“下一状态预测”,获得了可泛化的世界建模能力,标志着人工智能从数字世界向物理世界跨越的关键突破。
在场景应用层面,Emu3.5不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力,也能完成文图生成、图片编辑与时空变换。
01 下一状态预测:世界模型的核心突破
Emu3.5的核心技术创新在于其Next-State Prediction能力。
这一技术使模型能够以自回归方式对多模态序列进行预测,从而获得可泛化的世界建模能力。
这种能力类似于人类对物理世界的直观理解。
当一个咖啡杯放在桌子边缘时,人类不仅能识别“白色的咖啡杯在桌上”,更能预判“咖啡杯在桌子边缘,很危险”,并知道需要从外向内的方向拿取杯子来避免它掉落。
02 跨场景具身操作:从感知到行动的跨越
在应用层面,Emu3.5表现出了惊人的泛化能力。
模型能够实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力。
这意味着搭载该模型的机器人可以更好地理解周围环境,并做出合理的行动规划。
从工业生产到家庭服务,从医疗辅助到商业应用,Emu3.5为机器人在复杂环境中的自主操作开辟了新的可能性。

03 原生多模态:打破数字与物理世界的边界
与传统多模态模型不同,Emu3.5采用了原生多模态架构。
过去的多模态大模型往往是先学习“语言”再训练其处理图像、声音等其他模态信息的能力,而在接触其他模态信息的过程中,原本已达到“博士”水平的模型能力可能会降至“大学”甚至“高中”水平。
相比之下,原生多模态模型在训练初始阶段就将文字、图像、声音等各种模态数据都纳入其中进行训练,让模型像人一样更“融会贯通”地理解世界。
04 从数字到物理:AI发展的必然趋势
“人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是‘悟界’系列大模型推出的底层原因,”智源研究院院长王仲远早前表示。
AI从数字世界跨向物理世界时必须突破两者之间的隔阂,其中最重要的隔阂就是对空间和时间的感知。
目前全球众多人工智能机构都在积极探索原生多模态技术,而悟界·Emu3.5在这一领域的突破,为整个行业指明了发展方向。
Emu3.5的问世不仅是技术上的进步,更是AI与物理世界交互方式的重要革新。
从理解静态信息到预测动态变化,这一突破使得AI在机器人、自动驾驶、智能交互等领域的应用更加广阔。
随着Emu3.5的发布,人工智能不再仅仅是处理数字信息的工具,而是成为连接数字世界与物理世界的桥梁。当机器能够预测下一秒的世界状态,我们与AI共存的未来已触手可及。

关注 “悠AI” 更多干货技巧行业动态