灵波科技开源LingBot-VLA:让机器人训练不再从零开始
今天,蚂蚁集团旗下的灵波科技正式开源其具身智能基座模型 LingBot-VLA 的整套真机部署工具链。这不是一次简单的模型发布,而是一套能让开发者直接把模型“塞进”自己机器人里的完整解决方案——从数据处理、训练调优,到最终在真实设备上跑起来,全部打通。
过去,哪怕你手握一个性能不错的视觉语言动作(VLA)模型,想让它在自家机器人上动起来,也得从头折腾:机械臂的关节数对不上、摄像头角度不一样、控制指令格式不兼容、传感器数据对不齐……每个团队都得花几个月时间写适配代码,而这些“脏活累活”,往往被当成核心机密,从不外传。
这次,灵波把这套藏了两年的“工具箱”全摊开了。你不需要懂底层控制协议,也不用自己写数据转换脚本。只要你的机器人有摄像头、关节编码器和基本的运动控制接口,就能直接用上他们做的:
- 多机器人数据合并工具:把你在不同机器人上录的演示数据,一键对齐格式,自动映射关节维度,省掉手动对齐的苦工。
- 真机优化训练配置:预设了针对真实环境噪声、延迟、抖动的训练参数,不是纸上谈兵的仿真参数。
- 离线评测系统:不用每次跑真机才看效果,先在本地用历史数据模拟一遍,省电、省时间、少摔机器人。
- 编译加速部署模块:支持TensorRT、ONNX等主流加速框架,部署到NVIDIA Jetson或国产工控机上,延迟降低40%以上。
LingBot-VLA 本身也不是“纸上模型”。它是在2万小时真实机器人操作数据上训练出来的,覆盖了9种主流双臂机器人——从乐聚的仿人机器人,到松灵的移动底盘+机械臂组合,再到星海图的工业双臂,全都实测跑通。不是实验室里的“理想环境”,是真实工厂、仓库、家庭场景里磕磕碰碰练出来的。
最让人意外的是,它只需要150条演示视频,就能让机器人学会新任务。以前同类模型动不动要几千条,现在你用手机拍个10分钟视频,标注一下关键动作,就能训练出能抓杯子、开抽屉、递工具的机器人。一位深圳的初创团队测试后说:“我们用旧机器人拍了两天,训练了8小时,它自己学会了给咖啡机换胶囊——以前我们自己写代码搞了三个月都没成。”
训练速度也快得惊人。相比StarVLA、OpenPI这些主流框架,LingBot-VLA的训练效率提升1.5到2.8倍。同样的数据,别人跑三天,你一天半就完事。算力成本砍掉一半,对小团队和高校实验室来说,是实实在在的门槛降低。
模型提供两个版本:带深度信息的(适合有RGB-D相机的机器人)和不带深度的(普通摄像头就能跑),你自己选,不强求升级硬件。
现在,所有代码已开源在 GitHub:github.com/Robbyant/lingbot-vla,模型权重同步上线 Hugging Face 和 ModelScope,支持直接下载、一键部署。没有注册门槛,没有商业授权限制,连工业场景都能用。
这不是“我们做了个好模型”,而是“我们把怎么让模型在你机器人上干活的全套方法,送给你了”。