亚毫米级精准对位：小米开源 VLA 大模型后训练全流程

AI广播站1天前更新小悠

3 0 0

小米近期宣布正式开源其视觉-语言-动作（VLA）大模型 Xiaomi-Robotics-0的真机后训练全流程。这一举措标志着小米在具身智能领域迈出重要一步，旨在让机器人能够更快速地通过少量数据掌握复杂的操作技能。

基于预训练基座，研发团队仅利用约20小时的任务数据进行真机后训练，便让机器人掌握了将耳机精准收纳进盒的高难度动作。该过程不仅要求极高的空间感知精度，还需克服极低表面粗糙度带来的位移干扰。

模型必须在亚毫米级的公差范围内完成对位，并能实时修正动作偏差。这种“连续丝滑”的执行能力，证明了 Xiaomi-Robotics-0在处理高精度装配任务时的卓越潜力。

为了让该模型真正成为“开箱即用”的工具，小米此次不仅开放了模型权重，还公布了技术报告与源代码。这种全链条的开源模式，极大降低了开发者进入具身智能领域的门槛。

此前，该模型在国际权威平台上已表现出色，位列全球下载榜前列。随着后训练流程的公开，全球开发者将能共同优化机器人的感知与执行逻辑，加速 AI 机器人走进现实生产生活的进程。

项目网站:https://robotics.xiaomi.com/xiaomi-robotics-0.html

开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

小米继2月开源VLA大模型Xiaomi-Robotics-0后，近日公布其真机后训练全流程，旨在解决机器人从实验室到实际生产的“最后一公里”问题。演示中，搭载该模型的机器人仅用20小时训练便展现出精细操作能力，推动AI机器人成为开箱即用的生产力工具。

小米于4月23日发布MiMo-V2.5系列大模型并开启公测，包含四款模型，其中核心模型MiMo-V2.5-Pro与MiMo-V2.5面向全球开源，展现其推动AI生态开放的决心。此次更新不仅是产品迭代，更是技术底座的全面升级，旗舰性能支持百万级上下文与复杂任务处理。

小米发布MiMo-V2.5系列大模型，包含MiMo-V2.5、V2.5-Pro及配套TTS与ASR模型，标志着模型从“能用”到“好用”的升级。其中旗舰型号MiMo-V2.5-Pro在通用智能体能力和软件工程方面已能与Claude Opus4.6、GPT-5.4等顶尖模型竞争，核心优势在于高指令遵循度和自我修正能力。

小米自研大模型MiMo-V2系列正式接入全球顶级开源Agent框架Hermes Agent，实现强强联合。开发者更新框架后即可通过Nous Portal直接调用小米旗舰模型。同时，小米开启为期两周的“限免全家桶”活动回馈开发者。

小米Kaldi团队开源OmniVoice模型，支持超600种语言，在中文和多语言TTS基准测试中多项指标达到SOTA。中文WER低至0.84%，多语言性能超越主流商用模型，实现语音合成新突破。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

亚毫米级精准对位：小米开源 VLA 大模型后训练全流程

OpenAI CEO 奥尔特曼发布五大原则：致力于让 A…

重拳出击！滴滴首度公开安全AI模型，顺风车风险防控进入“人…

相关文章

暂无评论

亚毫米级精准对位：小米开源 VLA 大模型后训练全流程

​OpenAI CEO 奥尔特曼发布五大原则：致力于让 A…

重拳出击！滴滴首度公开安全AI模型，顺风车风险防控进入“人…

相关文章

暂无评论

OpenAI CEO 奥尔特曼发布五大原则：致力于让 A…