腾讯开源混元3D 世界模型2.0,支持一键生成可编辑3D …

AI广播站4天前更新 小悠
11 0 0

腾讯混元团队今日宣布正式发布并开源“混元3D 世界模型2.0”(HY-World2.0)。作为多模态世界模型的重大升级,该版本实现了从单纯生成视频向生成“可交互、可编辑3D 资产”的跨越。模型支持文、图、视频等多种模态输入,能够自动生成、重建并模拟包含人、物、景的完整3D 空间,并支持 Mesh、3DGS 及点云等多种格式导出,可与 Unity、UE 等主流游戏引擎工作流无缝对接。

技术架构上,HY-World2.0统一了空间理解、生成与重建流程。其核心升级包括:采用端到端隐式学习方案的 HY-Pano-2.0模型,可在无需相机参数的情况下实现360度全景映射;自研空间 Agent 技术结合 VLM 与 navmesh 表征,赋予模型智能规划漫游轨迹的能力;而 WorldStereo 机制则确保了新生成区域与既有场景在几何与视觉上的高度一致性。

腾讯开源混元3D 世界模型2.0,支持一键生成可编辑3D 空间资产

此外,升级后的 WorldMirror2.0架构支持复刻真实场景,可一次性预测密集点云与相机参数,实现高精度的数字孪生构建。

相比谷歌 Genie3等主流模型,混元2.0的突破在于生成的资产具备真实物理碰撞属性,支持角色模式自由探索,显著降低了游戏关卡原型与具身智能仿真环境的构建门槛。

此次发布标志着腾讯混元在3D 生成领域从“捏物体”进化到“造世界”,通过 SOTA 级的空间一致性记忆机制,将 AI 驱动的3D 内容创作推向实用化阶段。

Adobe推出Firefly AI Assistant,它能跨应用自主执行任务。用户只需用自然语言描述目标,它就能规划流程,在Photoshop、Premiere等Creative Cloud应用中完成操作并同步结果,重构创作工作流。

印度初创公司Emergent推出AI代理Wingman,进军AI代理软件市场。该产品主打“消息传递优先”,集成于WhatsApp等主流通讯平台,用户可通过自然语言指令跨工具执行邮件管理、日程对接等任务。公司此前凭借“氛围编码”平台已积累超800万开发者用户。

谷歌推出Gemini-TTS模型,定位为“最富表现力的文本转语音解决方案”。其核心突破在于赋予开发者对语音的精细控制能力,通过提示词可灵活调节情感、节奏和风格,告别传统TTS声音单调、缺乏表现力的局限。

谷歌推出Mac版原生Gemini应用,支持macOS15及以上系统,用户可通过快捷键随时调用AI助手,实现系统级集成,增强桌面AI助手竞争力。

Adobe推出Firefly AI助手,具备自主决策能力,能理解用户意图、拆解任务并执行,缩短创意到作品的路径,打通全家桶工作流。

腾讯开源混元3D 世界模型2.0,支持一键生成可编辑3D …

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...