亚毫米级精准对位:小米开源 VLA 大模型后训练全流程

小米近期宣布正式开源其视觉-语言-动作(VLA)大模型 Xiaomi-Robotics-0的真机后训练全流程。这一举措标志着小米在具身智能领域迈出重要一步,旨在让机器人能够更快速地通过少量数据掌握复杂的操作技能。

基于预训练基座,研发团队仅利用约20小时的任务数据进行真机后训练,便让机器人掌握了将耳机精准收纳进盒的高难度动作。该过程不仅要求极高的空间感知精度,还需克服极低表面粗糙度带来的位移干扰。

亚毫米级精准对位:小米开源 VLA 大模型后训练全流程

模型必须在亚毫米级的公差范围内完成对位,并能实时修正动作偏差。这种“连续丝滑”的执行能力,证明了 Xiaomi-Robotics-0在处理高精度装配任务时的卓越潜力。

为了让该模型真正成为“开箱即用”的工具,小米此次不仅开放了模型权重,还公布了技术报告与源代码。这种全链条的开源模式,极大降低了开发者进入具身智能领域的门槛。

此前,该模型在国际权威平台上已表现出色,位列全球下载榜前列。随着后训练流程的公开,全球开发者将能共同优化机器人的感知与执行逻辑,加速 AI 机器人走进现实生产生活的进程。

项目网站:https://robotics.xiaomi.com/xiaomi-robotics-0.html

开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

小米继2月开源VLA大模型Xiaomi-Robotics-0后,近日公布其真机后训练全流程,旨在解决机器人从实验室到实际生产的“最后一公里”问题。演示中,搭载该模型的机器人仅用20小时训练便展现出精细操作能力,推动AI机器人成为开箱即用的生产力工具。

小米于4月23日发布MiMo-V2.5系列大模型并开启公测,包含四款模型,其中核心模型MiMo-V2.5-Pro与MiMo-V2.5面向全球开源,展现其推动AI生态开放的决心。此次更新不仅是产品迭代,更是技术底座的全面升级,旗舰性能支持百万级上下文与复杂任务处理。

小米发布MiMo-V2.5系列大模型,包含MiMo-V2.5、V2.5-Pro及配套TTS与ASR模型,标志着模型从“能用”到“好用”的升级。其中旗舰型号MiMo-V2.5-Pro在通用智能体能力和软件工程方面已能与Claude Opus4.6、GPT-5.4等顶尖模型竞争,核心优势在于高指令遵循度和自我修正能力。

小米自研大模型MiMo-V2系列正式接入全球顶级开源Agent框架Hermes Agent,实现强强联合。开发者更新框架后即可通过Nous Portal直接调用小米旗舰模型。同时,小米开启为期两周的“限免全家桶”活动回馈开发者。

小米Kaldi团队开源OmniVoice模型,支持超600种语言,在中文和多语言TTS基准测试中多项指标达到SOTA。中文WER低至0.84%,多语言性能超越主流商用模型,实现语音合成新突破。

亚毫米级精准对位:小米开源 VLA 大模型后训练全流程

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...