腾讯开源混元3D 世界模型2.0，支持一键生成可编辑3D …

腾讯混元团队今日宣布正式发布并开源“混元3D 世界模型2.0”（HY-World2.0）。作为多模态世界模型的重大升级，该版本实现了从单纯生成视频向生成“可交互、可编辑3D 资产”的跨越。模型支持文、图、视频等多种模态输入，能够自动生成、重建并模拟包含人、物、景的完整3D 空间，并支持 Mesh、3DGS 及点云等多种格式导出，可与 Unity、UE 等主流游戏引擎工作流无缝对接。

技术架构上，HY-World2.0统一了空间理解、生成与重建流程。其核心升级包括:采用端到端隐式学习方案的 HY-Pano-2.0模型，可在无需相机参数的情况下实现360度全景映射;自研空间 Agent 技术结合 VLM 与 navmesh 表征，赋予模型智能规划漫游轨迹的能力;而 WorldStereo 机制则确保了新生成区域与既有场景在几何与视觉上的高度一致性。

腾讯开源混元3D 世界模型2.0，支持一键生成可编辑3D 空间资产

此外，升级后的 WorldMirror2.0架构支持复刻真实场景，可一次性预测密集点云与相机参数，实现高精度的数字孪生构建。

相比谷歌 Genie3等主流模型，混元2.0的突破在于生成的资产具备真实物理碰撞属性，支持角色模式自由探索，显著降低了游戏关卡原型与具身智能仿真环境的构建门槛。

此次发布标志着腾讯混元在3D 生成领域从“捏物体”进化到“造世界”，通过 SOTA 级的空间一致性记忆机制，将 AI 驱动的3D 内容创作推向实用化阶段。

Adobe推出Firefly AI Assistant，它能跨应用自主执行任务。用户只需用自然语言描述目标，它就能规划流程，在Photoshop、Premiere等Creative Cloud应用中完成操作并同步结果，重构创作工作流。

印度初创公司Emergent推出AI代理Wingman，进军AI代理软件市场。该产品主打“消息传递优先”，集成于WhatsApp等主流通讯平台，用户可通过自然语言指令跨工具执行邮件管理、日程对接等任务。公司此前凭借“氛围编码”平台已积累超800万开发者用户。

谷歌推出Gemini-TTS模型，定位为“最富表现力的文本转语音解决方案”。其核心突破在于赋予开发者对语音的精细控制能力，通过提示词可灵活调节情感、节奏和风格，告别传统TTS声音单调、缺乏表现力的局限。

谷歌推出Mac版原生Gemini应用，支持macOS15及以上系统，用户可通过快捷键随时调用AI助手，实现系统级集成，增强桌面AI助手竞争力。

Adobe推出Firefly AI助手，具备自主决策能力，能理解用户意图、拆解任务并执行，缩短创意到作品的路径，打通全家桶工作流。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

腾讯开源混元3D 世界模型2.0，支持一键生成可编辑3D …

中国洗衣机登上广交会，海尔AI之眼要打入欧洲市场

就业市场遇冷AI不背锅？LinkedIn数据显示利率上升才…

相关文章

暂无评论