悟界·Emu3.5大模型问世:“下一状态预测”突破多模态感知,机器人跨场景操作成真

AI广播站3个月前更新 小悠
78 0 0

从理解世界到预测行动,一款能够预见下一秒变化的大模型,正让机器以更接近人类的方式与物理世界互动。

今日,智源研究院正式发布了多模态世界大模型悟界·Emu3.5。这款模型以自回归方式实现了对多模态序列的“下一状态预测”,获得了可泛化的世界建模能力,标志着人工智能从数字世界向物理世界跨越的关键突破。

在场景应用层面,Emu3.5不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力,也能完成文图生成、图片编辑与时空变换。


01 下一状态预测:世界模型的核心突破

Emu3.5的核心技术创新在于其Next-State Prediction能力

这一技术使模型能够以自回归方式对多模态序列进行预测,从而获得可泛化的世界建模能力。

这种能力类似于人类对物理世界的直观理解。

当一个咖啡杯放在桌子边缘时,人类不仅能识别“白色的咖啡杯在桌上”,更能预判“咖啡杯在桌子边缘,很危险”,并知道需要从外向内的方向拿取杯子来避免它掉落。

02 跨场景具身操作:从感知到行动的跨越

在应用层面,Emu3.5表现出了惊人的泛化能力

模型能够实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力。

这意味着搭载该模型的机器人可以更好地理解周围环境,并做出合理的行动规划。

从工业生产到家庭服务,从医疗辅助到商业应用,Emu3.5为机器人在复杂环境中的自主操作开辟了新的可能性。

悟界·Emu3.5大模型问世:“下一状态预测”突破多模态感知,机器人跨场景操作成真

03 原生多模态:打破数字与物理世界的边界

与传统多模态模型不同,Emu3.5采用了原生多模态架构

过去的多模态大模型往往是先学习“语言”再训练其处理图像、声音等其他模态信息的能力,而在接触其他模态信息的过程中,原本已达到“博士”水平的模型能力可能会降至“大学”甚至“高中”水平。

相比之下,原生多模态模型在训练初始阶段就将文字、图像、声音等各种模态数据都纳入其中进行训练,让模型像人一样更“融会贯通”地理解世界。

04 从数字到物理:AI发展的必然趋势

“人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是‘悟界’系列大模型推出的底层原因,”智源研究院院长王仲远早前表示。

AI从数字世界跨向物理世界时必须突破两者之间的隔阂,其中最重要的隔阂就是对空间和时间的感知

目前全球众多人工智能机构都在积极探索原生多模态技术,而悟界·Emu3.5在这一领域的突破,为整个行业指明了发展方向。

Emu3.5的问世不仅是技术上的进步,更是AI与物理世界交互方式的重要革新

从理解静态信息到预测动态变化,这一突破使得AI在机器人、自动驾驶、智能交互等领域的应用更加广阔。


随着Emu3.5的发布,人工智能不再仅仅是处理数字信息的工具,而是成为连接数字世界与物理世界的桥梁。当机器能够预测下一秒的世界状态,我们与AI共存的未来已触手可及。

悟界·Emu3.5大模型问世:“下一状态预测”突破多模态感知,机器人跨场景操作成真

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...