蚂蚁灵波开源LingBot-VLA:让机器人更懂真实世界
就在上周,蚂蚁集团旗下的蚂蚁灵波科技正式将自研的具身智能大模型 LingBot-VLA 及全套后训练工具链全面开源。这不是一次简单的技术发布,而是一次让机器人真正“看懂”世界的努力。过去,很多机器人模型只能在实验室的模拟环境中表现良好,一旦进入真实场景,动作迟缓、判断失误是常态。LingBot-VLA 的出现,正在改变这一点。
目前,LingBot-VLA 已经成功接入星海图、松灵、乐聚等国内主流机器人厂商的设备。无论是仓储搬运机器人、服务型机器人,还是教育陪伴机器人,只要搭载这套模型,都能在不更换硬件的前提下,快速提升任务完成率。更关键的是,它不依赖昂贵的算力——在8张消费级A100 GPU上,模型每秒能处理261个训练样本,效率比StarVLA、OpenPI等主流框架高出1.5到2.8倍。这意味着,哪怕是一个中小团队,也能用相对可控的成本训练出能跑在真实机器人上的智能模型。

数据越多,机器人越“聪明”
蚂蚁灵波团队收集了超过2万小时的真实机器人操作数据——不是合成的,不是摆拍的,是机器人在仓库、家庭、展厅等复杂环境中一遍遍试错、失败、再尝试积累下来的。他们发现一个朴素但关键的规律:数据量越大,机器人完成任务的成功率就越高。从3000小时到20000小时,模型在标准测试中的成功率稳步提升,没有 plateau(平台期),说明我们还没触到数据的天花板。
在上海交大开源的GM-100评测基准中,LingBot-VLA 在三种不同结构的机器人上实现了跨本体泛化——也就是说,一个在星海图机器人上训练好的模型,可以直接用在乐聚的机器人上,无需重新训练。平均成功率从13%提升到15.7%,而当加入深度信息后,直接冲到17.3%。这个数字看似不高,但在真实机器人任务中,意味着从“经常失败”到“基本可靠”的质变。
LingBot-Depth:让机器人“看得更深”
光靠视觉还不够。很多任务,比如抓取一个半藏在抽屉里的杯子、避开地上的电线,都需要对空间有精确的感知。为此,蚂蚁灵波在1月27日同步推出了 LingBot-Depth——一个专为真实场景设计的深度补全模型。
它不依赖昂贵的激光雷达,而是用普通双目摄像头采集RGB和原始深度数据。这些原始数据往往布满噪点、缺失严重,就像在雾天看东西。LingBot-Depth 的作用,就是把这些模糊、残缺的“碎片”,还原成清晰、连续的三维结构。在KITTI、NYU Depth v2 等多个公开数据集测试中,它的补全精度稳居前列,甚至在部分场景下超越了使用RGB-D传感器的方案。
这对行业意味着什么?未来,不需要每台机器人都配激光雷达,一台普通的双目摄像头+LingBot-Depth,就能实现接近高端传感器的环境理解能力。这对降低成本、加速机器人普及,意义重大。不少自动驾驶公司和机器人初创团队,已经主动联系蚂蚁灵波,希望将这套模型集成到自己的产品中。
开源,不是终点,是起点
这次开源,蚂蚁灵波没有保留任何核心代码。从数据预处理、模型训练、到推理部署,全套工具链都放在了GitHub上,允许任何人商用、修改、再发布。他们甚至提供了详细的部署指南和常见问题解答,连“如何在Jetson Orin上跑起来”这种细节都写清楚了。
这不是一场技术秀,而是一次真正的“共建”。我们见过太多模型,发布时轰轰烈烈,几个月后无人问津。LingBot-VLA 和 LingBot-Depth 不一样——它们是为真实世界而生,也为真实世界的开发者而开源。如果你正在做机器人、做视觉感知、做AI落地,这套工具,值得你花时间试试。