最新消息:关注人工智能 AI赋能新媒体运营

小米开源VLA大模型:亚毫米级精准对位训练全流程

科技资讯 admin 浏览

小米开源机器人大模型,20小时教会机器人“穿针引线”

小米近日正式开源其视觉-语言-动作(VLA)大模型 Xiaomi-Robotics-0 的全部真机训练流程,包括模型权重、训练代码和完整技术文档。这不是一次简单的技术发布,而是一次让普通人也能动手调试机器人的尝试。

你可能想不到,这个模型只用了大约20小时的真实机器人操作数据,就学会了把耳机精准放进收纳盒——这个动作看似简单,实则要求机器人在亚毫米级的精度下完成对位,还要应对耳机外壳光滑、易滑动的物理特性。没有预设路径,没有人工干预,机器人靠模型自己“看”和“试”,一遍遍调整动作,最终实现连续、平稳的插入。

这不是实验室里的表演。团队用的是真实机器人,采集的是真实环境下的数据,连桌面反光、手部微颤都包含在内。结果是,它不光能完成这个任务,还能迁移到类似场景:比如把充电线塞进插槽、把螺丝拧进螺孔——这些在工厂和家庭中都极其常见,但过去需要专门编程才能实现。

image.png

开源不是口号,是把工具交到你手上

这次小米没藏私。他们不仅把模型权重放出来,还把训练用的代码、数据预处理脚本、甚至怎么连接真实机器人、怎么采集数据的步骤都写得清清楚楚。你不需要是AI博士,只要会Python、有台机器人(或仿真环境),就能跟着文档跑起来。

过去,想让机器人学新技能,要么找大厂定制,要么自己从零训练,动辄上百万数据、数月时间。现在,你只需要下载模型,用你自己的设备录一段10分钟的操作视频,再跑一遍后训练脚本,机器人就能学会你的动作。

这不是空谈。GitHub上,Xiaomi-Robotics-0 项目上线不到一周,星标数已突破12k,社区里有人用它让机械臂学会叠T恤,有人把它移植到UR5上做电路板检测,还有学生用模拟器复现了“插USB”动作。这些都不是小米官方做的,而是来自全球的开发者。

为什么这次不一样?

很多人见过“AI机器人”的演示,但大多停留在“能做,但不能用”。小米这次的突破在于:它不追求炫技,而是解决真实问题——**让机器人能学、能改、能落地**。

模型基于公开的视觉语言架构优化,不依赖昂贵的传感器,普通RGB摄像头+力控关节就能跑。训练数据也不需要标注,只要录下人手操作的过程,系统就能自动对齐动作和意图。

更关键的是,小米没有设门槛。没有申请审核,没有商业授权费,连论文都写得像工程日志——哪步卡住了、怎么调的、效果如何,全公开。这在大厂中实属罕见。

目前,已有国内多家机器人初创公司基于此模型开发了家用清洁、老人助行辅助等原型机。一位深圳的硬件创业者说:“我们原本打算花半年做一套视觉引导系统,现在三天就跑通了。”

如果你是机器人爱好者、创客、学生,或者只是好奇“机器人到底什么时候能帮我们做家务”,现在就是最好的入场时机。

项目网站:https://robotics.xiaomi.com/xiaomi-robotics-0.html

开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0