最新消息:关注人工智能 AI赋能新媒体运营

蚂蚁集团开源LingBot-VLA具身大模型及后训练工具链

科技资讯 admin 浏览

灵波科技开源LingBot-VLA:让机器人真正“看得懂、做得准”

蚂蚁集团旗下的灵波科技近日宣布,正式开源其具身大模型LingBot-VLA——这不是一次简单的技术发布,而是一次对行业门槛的主动降低。从模型权重到训练代码,从真实数据集到评估工具,所有核心资源全部公开,没有任何隐藏条件。开发者可以直接下载、直接跑、直接改,不再需要从零搭建一套复杂的视觉语言动作系统。

真实机器人上跑出的成果,不是仿真“纸上谈兵”

很多人看到机器人模型的“高成功率”就怀疑是不是只在理想环境里跑出来的。LingBot-VLA不一样——它的核心数据来自上海交通大学的GM-100真实机器人评测平台,用的是三台不同结构的实体机器人:轮式、双臂、足式。在没有额外调参的情况下,它在跨平台任务中的平均成功率达到了15.7%,比目前主流的Pi0.5高出近2个百分点。这个数字意味着,它能更稳定地完成“拿起水杯”“推开抽屉”“绕过障碍物”这类日常动作。

更关键的是,当系统接入深度摄像头(如Intel RealSense)后,成功率直接冲到17.3%。这不是小修小补,而是真正理解了“空间”——知道物体有多远、多厚、会不会挡住动作路径。很多开源模型还在处理二维图像,LingBot-VLA已经能结合三维信息做决策。

在RoboTwin2.0仿真环境中,它面对突然变暗的灯光、散落的杂物、甚至人为干扰的物体位移,操作成功率依然比Pi0.5高出近10%。这意味着,它不是靠“背题”取胜,而是学会了在混乱中找规律。

训练快、数据少、成本低,这才是开发者想要的

过去,训练一个高性能VLA模型需要上百张A100、数周时间、几百万美元的算力投入。LingBot-VLA团队反其道而行:他们用更少的数据,更少的算力,做出了更强的结果。

他们的训练工具链,在8张消费级A100(非H100)上,单卡每秒能处理261个样本。对比StarVLA和OpenPI,训练速度快了1.5到2.8倍。这意味着,一个实验室团队用一台4卡服务器,就能在几天内完成一次完整微调,而不是等上几周。

更重要的是,它不需要你从头收集十万条机器人操作视频。你只需要100条自己的任务数据,就能让它在新场景下快速上手。有开发者实测,在自家机械臂上用50条视频微调后,它能准确完成“把螺丝拧进指定孔位”这种高精度任务——而过去,这需要专门写控制代码。

开源内容全公开,连数据集都给你

这次开源,灵波科技几乎“把家底都掏出来了”:

  • 模型权重:已上线Hugging Face和魔搭(ModelScope),支持一键下载,兼容PyTorch和Transformers。
  • 完整代码库:GitHub仓库包含数据预处理、高效微调脚本、自动化评估系统,甚至还有用于可视化动作轨迹的调试工具。
  • GM-100真实数据集:包含超过2万条真实机器人操作视频+动作指令+深度图,全部脱敏开放,可直接用于训练。
  • 技术报告:详细记录了实验设计、对比方法、失败案例分析,连“为什么在某些场景下会失败”都写清楚了。

这不是“发布一个模型”,而是提供了一整套“从零开始做具身智能”的基础设施。

谁该关注这个开源项目?

如果你是:

  • 高校实验室的研究员,想做机器人控制但没算力资源——它能让你用一台工作站跑出接近顶会的效果。
  • 创业公司,想做家庭服务机器人但不想被大厂算法卡脖子——它提供了可商用的底层能力。
  • 硬件工程师,手头有机械臂或移动底盘,想给它加个“大脑”——你不需要再写一堆规则,直接用视觉指令驱动它。
  • AI爱好者,想亲手让机器人听懂“把桌上的杯子递给我”这种自然语言——现在,你真的可以了。

过去,具身智能是少数大厂和顶级实验室的专属领域。现在,LingBot-VLA把这扇门彻底推开。不需要PPT里的“颠覆性创新”,也不需要天花乱坠的术语,它只是安静地告诉你:你可以开始做了。

项目地址:

  • 模型与权重:https://huggingface.co/spacelab-ai/LingBot-VLA
  • 代码仓库:https://github.com/spacelab-ai/LingBot-VLA
  • 魔搭社区:https://modelscope.cn/models/spacelab-ai/LingBot-VLA