最新消息:关注人工智能 AI赋能新媒体运营

蚂蚁数科发布轻量化具身智能数据采集框架

科技资讯 admin 浏览

手机+20美元支架,就能采集机器人训练数据?蚂蚁数科这项技术让行业震惊

过去,训练一个能帮机器人做家务、开柜门、拿杯子的AI模型,需要昂贵的实验室设备:动辄十几万的高精度动作捕捉系统、多摄像头阵列、专业传感器,还得配一支工程师团队盯着数据。而现在,蚂蚁数科天玑实验室推出了一套“手机+颈挂支架”的方案,成本不到20美元,就能采集到高质量的第一人称交互视频——这不再是科幻场景,而是正在发生的现实。

这套名为AoE(Always-On Egocentric)的系统,核心是一枚轻巧的颈挂支架,用磁吸或夹具把普通智能手机固定在胸前,像戴项链一样自然。用户日常走路、开门、拿东西、做饭,手机就在你眼前,持续记录你双手和物体的互动。没有复杂布线,不用专业训练,也不用改变生活习惯——你做什么,它就录什么。

image.png

50条数据成功率45%,200条AoE数据直接飙到95%

技术好不好,得看效果。团队用Unitree G1机器人做了一个简单测试:让它学会“打开柜门”。用传统遥操作方式,只给50条人工操控数据,机器人成功率只有45%。而换成200条由普通人用手机拍下的真实操作视频——有人是上班族,有人是老人,有人是孩子——机器人成功率直接跳到95%。

这不是偶然。在真实世界里,人开柜门的动作千差万别:有人先拉把手,有人先压门板;有人用拇指,有人用掌心。这些“不标准”的细节,恰恰是AI最需要学习的。专业设备拍的是“理想动作”,而AoE拍的是“真实生活”。

更关键的是,这套系统能同时支持上千台手机并发采集。数据自动上传云端,系统会自动剪辑、打标签、去重、过滤模糊画面。以前一个数据工程师忙一天,可能只能处理几十分钟视频;现在,系统一天能处理上百小时,准确率还超过90%。

image.png

不是“拍视频”,是自动变成“机器人教科书”

很多人以为,只要把手机对着手拍就行。但真实情况远不止如此。

AoE的真正突破,在于它能“读懂”视频里发生了什么。手机端有个轻量模型,一检测到手和物体接触超过1秒,就自动开始录制。录完后,云端的大模型会把一段30秒的视频,拆成一个个“动作单元”:比如“伸手→抓住把手→向左旋转→拉动→关门”——每个动作都自动打上标签,像教科书一样清晰。

这背后是蚂蚁数科团队两年多的打磨:他们训练模型识别200多种日常手部动作,从拧瓶盖到插充电线,从拉开抽屉到递杯子。这些动作,过去只能靠人工逐帧标注,耗时耗力。现在,系统自己就能完成。

一位参与测试的高校研究员说:“我们以前要花三个月整理100小时数据,现在一周就能拿到500小时、带语义标签的高质量数据。这简直是把‘数据工厂’搬进了每个人口袋。”

不只是机器人,养老、家政、工业维修都可能被改变

这项技术的潜力,远不止于实验室里的机器人。

在养老场景,老人自己操作电饭煲、开药盒、取药片的过程,可以被安全采集,用来训练助老机器人;在家庭保洁领域,清洁工擦窗、收衣服、整理沙发的动作,能教会扫地机器人更懂“家”;在工业维修中,老师傅拆装一台设备的每一个步骤,都能被记录下来,成为新员工的“数字师傅”。

更现实的是,它打破了数据垄断。过去,只有大公司能负担得起数据采集成本,小团队根本玩不起。现在,一个创业公司、一所地方高校,甚至一个独立开发者,只要买个20美元的支架,就能获得过去只有谷歌、OpenAI才有的数据资源。

蚂蚁数科的“AI落地”正在悄悄变快

这不是一次孤立的技术实验。2026年以来,蚂蚁数科明显加快了AI在产业端的落地节奏:成立“大模型技术创新部”,发布企业级大模型计划,重点押注AI+金融、AI+安全、AI+具身智能。

天玑实验室的负责人在接受采访时表示:“我们不想做空中楼阁的AI。我们想解决真实世界里,那些没人愿意做、但又特别重要的事——比如让机器学会人类的日常动作。”

目前,AoE技术已开放部分数据集供学术研究,部分合作企业正在测试其在物流分拣、老年陪护机器人等场景的应用。未来,不排除推出面向开发者和中小企业的低成本数据采集套件。

一个普通人,一部手机,一个20美元的支架,就能为下一代机器人提供“第一手经验”。这或许是AI走向真实世界最朴素、也最有力的一次转身。