腾讯推出具身多模态大模型 HY-Embodied-0.5…

近日，腾讯 Robotics X 实验室与混元团队共同发布并开源了 HY-Embodied-0.5-X，这是一款专为具身任务优化的多模态大模型，旨在提升机器人在真实环境中的智能交互能力。该模型基于 HY-Embodied-0.5-MoT-2B 架构，强调机器人在 “看懂、想清、做到” 方面的核心能力，尤其在精细操作、空间推理、动作预测及风险判断等方面表现优越。

HY-Embodied-0.5 系列包含两个主要版本：MoT-2B 和 MoE-32B。MoT-2B 设计为端侧部署，具备实时响应能力，而 MoE-32B 则具有更大规模的参数，支持更复杂的任务处理。HY-Embodied-0.5-X 尤其专注于机器人在真实交互中的应用，推动从 “看懂” 走向 “干活”，并且为家庭服务和桌面操作等实际应用场景提供强有力的支持。

腾讯推出具身多模态大模型 HY-Embodied-0.5-X，赋能机器人智能交互

在数据方面，HY-Embodied-0.5-X 结合了自采的机器人第一视角操作数据和开源具身数据，构建出高质量的训练数据集。该数据集不仅涵盖了操作理解和任务推理，还增强了模型对模糊指令的理解能力。此外，团队引入了思维链标注和数据质量闭环，确保模型训练的有效性和数据的高质量。

在训练策略上，HY-Embodied-0.5-X 采用分阶段迭代的方法，首先通过小规模高质量数据验证训练配置，然后逐步扩展至大规模训练，以提升训练效率和稳定性。该模型在空间理解、长程规划和具身交互方面展现出显著优势，使机器人能够更准确地理解环境并完成复杂任务。

HY-Embodied-0.5-X 的推出标志着腾讯在具身智能领域的又一重要进展，有望在机器人与人类的互动中，推动技术的进一步发展与应用。

🌟 HY-Embodied-0.5-X 是一款新发布的多模态大模型，专为机器人智能交互优化。

🤖 该模型结合多种数据源，提升了机器人在真实环境中的操作理解和执行能力。

🔄 分阶段训练策略确保了模型的高效训练和稳定表现，适用于多种家庭和桌面场景。

腾讯推出专为机器人打造的HY-Embodied-0.5基础模型，旨在解决通用视觉语言模型在三维空间感知和物理交互方面的不足，推动大模型向机器人控制领域延伸。该系列模型从架构到训练均进行了重构，并同步发布MoT-2B等主力模型。

国产多模态模型“HappyHorse-1.0”在文本转视频评测中以1332分登顶，领先字节跳动模型近60分。其海外社交账号首位关注者为阿里巴巴，暗示其研发背景。

美团发布原生多模态大模型LongCat-Next，突破传统“语言基座+插件”架构，通过DiNA技术将图像、语音与文本统一转化为同源离散Token，实现AI原生“看”与“听”物理世界，完成多模态建模深度统一。

通义实验室发布多模态大模型Qwen3.5-Omni，实现理解力、交互感和任务执行力的跨越式进化，推动AI从“屏幕助手”迈向“理解物理世界的智能体”。该模型采用原生“全模态”架构，能无缝处理文本、图像、音频和视频输入，在音视频分析、推理、对话及翻译测试中表现卓越。

阿里通义实验室发布并开源了Fun-CineForge模型，旨在解决AI配音中的口型不同步、情感缺失及多角色音色不一致等问题。该模型创新引入“时间模态”概念，通过精准时间戳控制，确保语音与画面同步，并同步开放高质量数据集构建方法。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

腾讯推出具身多模态大模型 HY-Embodied-0.5…

谷歌拟加码投资 Anthropic，总金额或达400亿美元

腾讯 QClaw 迎来大升级：DeepSeek-V4-Pr…

相关文章

暂无评论

​腾讯推出具身多模态大模型 HY-Embodied-0.5…

谷歌拟加码投资 Anthropic，总金额或达400亿美元

腾讯 QClaw 迎来大升级：DeepSeek-V4-Pr…

相关文章

暂无评论

腾讯推出具身多模态大模型 HY-Embodied-0.5…