蚂蚁灵波开源LingBot-VLA：150条示教数据即可适配新机器人

灵波科技开源LingBot-VLA：让机器人训练不再从零开始

今天，蚂蚁集团旗下的灵波科技正式开源其具身智能基座模型 LingBot-VLA 的整套真机部署工具链。这不是一次简单的模型发布，而是一套能让开发者直接把模型“塞进”自己机器人里的完整解决方案——从数据处理、训练调优，到最终在真实设备上跑起来，全部打通。

过去，哪怕你手握一个性能不错的视觉语言动作（VLA）模型，想让它在自家机器人上动起来，也得从头折腾：机械臂的关节数对不上、摄像头角度不一样、控制指令格式不兼容、传感器数据对不齐……每个团队都得花几个月时间写适配代码，而这些“脏活累活”，往往被当成核心机密，从不外传。

这次，灵波把这套藏了两年的“工具箱”全摊开了。你不需要懂底层控制协议，也不用自己写数据转换脚本。只要你的机器人有摄像头、关节编码器和基本的运动控制接口，就能直接用上他们做的：

多机器人数据合并工具：把你在不同机器人上录的演示数据，一键对齐格式，自动映射关节维度，省掉手动对齐的苦工。
真机优化训练配置：预设了针对真实环境噪声、延迟、抖动的训练参数，不是纸上谈兵的仿真参数。
离线评测系统：不用每次跑真机才看效果，先在本地用历史数据模拟一遍，省电、省时间、少摔机器人。
编译加速部署模块：支持TensorRT、ONNX等主流加速框架，部署到NVIDIA Jetson或国产工控机上，延迟降低40%以上。

LingBot-VLA 本身也不是“纸上模型”。它是在2万小时真实机器人操作数据上训练出来的，覆盖了9种主流双臂机器人——从乐聚的仿人机器人，到松灵的移动底盘+机械臂组合，再到星海图的工业双臂，全都实测跑通。不是实验室里的“理想环境”，是真实工厂、仓库、家庭场景里磕磕碰碰练出来的。

最让人意外的是，它只需要150条演示视频，就能让机器人学会新任务。以前同类模型动不动要几千条，现在你用手机拍个10分钟视频，标注一下关键动作，就能训练出能抓杯子、开抽屉、递工具的机器人。一位深圳的初创团队测试后说：“我们用旧机器人拍了两天，训练了8小时，它自己学会了给咖啡机换胶囊——以前我们自己写代码搞了三个月都没成。”

训练速度也快得惊人。相比StarVLA、OpenPI这些主流框架，LingBot-VLA的训练效率提升1.5到2.8倍。同样的数据，别人跑三天，你一天半就完事。算力成本砍掉一半，对小团队和高校实验室来说，是实实在在的门槛降低。

模型提供两个版本：带深度信息的（适合有RGB-D相机的机器人）和不带深度的（普通摄像头就能跑），你自己选，不强求升级硬件。

现在，所有代码已开源在 GitHub：github.com/Robbyant/lingbot-vla，模型权重同步上线 Hugging Face 和 ModelScope，支持直接下载、一键部署。没有注册门槛，没有商业授权限制，连工业场景都能用。

这不是“我们做了个好模型”，而是“我们把怎么让模型在你机器人上干活的全套方法，送给你了”。

具身智能开源模型 LingBot-VLA 真机后训练工具链

CB科技站

蚂蚁灵波开源LingBot-VLA：150条示教数据即可适配新机器人

灵波科技开源LingBot-VLA：让机器人训练不再从零开始

与本文相关的文章