小米开源VLA大模型：亚毫米级精准对位训练全流程

小米开源机器人大模型，20小时教会机器人“穿针引线”

小米近日正式开源其视觉-语言-动作（VLA）大模型 Xiaomi-Robotics-0 的全部真机训练流程，包括模型权重、训练代码和完整技术文档。这不是一次简单的技术发布，而是一次让普通人也能动手调试机器人的尝试。

你可能想不到，这个模型只用了大约20小时的真实机器人操作数据，就学会了把耳机精准放进收纳盒——这个动作看似简单，实则要求机器人在亚毫米级的精度下完成对位，还要应对耳机外壳光滑、易滑动的物理特性。没有预设路径，没有人工干预，机器人靠模型自己“看”和“试”，一遍遍调整动作，最终实现连续、平稳的插入。

这不是实验室里的表演。团队用的是真实机器人，采集的是真实环境下的数据，连桌面反光、手部微颤都包含在内。结果是，它不光能完成这个任务，还能迁移到类似场景：比如把充电线塞进插槽、把螺丝拧进螺孔——这些在工厂和家庭中都极其常见，但过去需要专门编程才能实现。

这次小米没藏私。他们不仅把模型权重放出来，还把训练用的代码、数据预处理脚本、甚至怎么连接真实机器人、怎么采集数据的步骤都写得清清楚楚。你不需要是AI博士，只要会Python、有台机器人（或仿真环境），就能跟着文档跑起来。

过去，想让机器人学新技能，要么找大厂定制，要么自己从零训练，动辄上百万数据、数月时间。现在，你只需要下载模型，用你自己的设备录一段10分钟的操作视频，再跑一遍后训练脚本，机器人就能学会你的动作。

这不是空谈。GitHub上，Xiaomi-Robotics-0 项目上线不到一周，星标数已突破12k，社区里有人用它让机械臂学会叠T恤，有人把它移植到UR5上做电路板检测，还有学生用模拟器复现了“插USB”动作。这些都不是小米官方做的，而是来自全球的开发者。

很多人见过“AI机器人”的演示，但大多停留在“能做，但不能用”。小米这次的突破在于：它不追求炫技，而是解决真实问题——**让机器人能学、能改、能落地**。

模型基于公开的视觉语言架构优化，不依赖昂贵的传感器，普通RGB摄像头+力控关节就能跑。训练数据也不需要标注，只要录下人手操作的过程，系统就能自动对齐动作和意图。

更关键的是，小米没有设门槛。没有申请审核，没有商业授权费，连论文都写得像工程日志——哪步卡住了、怎么调的、效果如何，全公开。这在大厂中实属罕见。

目前，已有国内多家机器人初创公司基于此模型开发了家用清洁、老人助行辅助等原型机。一位深圳的硬件创业者说：“我们原本打算花半年做一套视觉引导系统，现在三天就跑通了。”

如果你是机器人爱好者、创客、学生，或者只是好奇“机器人到底什么时候能帮我们做家务”，现在就是最好的入场时机。

项目网站：https://robotics.xiaomi.com/xiaomi-robotics-0.html

开源代码：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0