GELab-Zero:让AI真正“用手”操作手机,开源即用,零模拟、零标注
你有没有想过,AI 可以像你一样,打开微信、刷抖音、点外卖、填表单、登录账号——不是靠脚本,不是靠模拟器,而是真真切切地“看到”屏幕、“理解”界面、“动手”点击?
今天,阶跃星辰(StepFun)正式开源 GELab-Zero,国内首个真正能在真实 Android 手机上“像人一样操作 App”的多模态智能体系统。没有模拟器,没有预设路径,不需要人工标注数据,只要你有一台 Android 手机、一根 USB 数据线,和一台电脑,10 分钟内,就能让 AI 开始“自己玩手机”。

为什么说 GELab-Zero 是一次“颠覆性突破”?
过去几年,AI 智能体在网页、API、结构化数据上进展飞快,但一碰到真实手机界面就“失明”——因为每个 App 的 UI 都不一样:有的是深色模式,有的是英文界面,有的动画慢半拍,有的按钮位置还会动态偏移。传统方案要么依赖昂贵的模拟环境,要么靠人工标注成千上万张截图,成本高、泛化差、落地难。
GELab-Zero 直接跳过这些“弯路”:
- 不依赖任何模拟器——直接连真机
- 不采集人工标注数据——完全靠真实操作反馈学习
- 不预设任何操作路径——从像素出发,自己看、自己想、自己动
它不是“调用接口”,而是“像人一样”读屏、分析、决策、点击。哪怕你换了一台新手机、升级了系统、换了 App 版本,它也能自动适应——因为它的“经验”来自真实世界,而不是人造数据集。
4B 参数,性能碾压百倍大模型
你没看错——GELab-Zero-4B,只有 40 亿参数,却在多个权威基准测试中,全面超越参数是它 8 倍以上的竞品:
- AndroidDaily:准确率 73.4% —— 远超 UI-TARS(47%)、Gemini 2.5 Pro(36.6%)、GPT-4o(19.6%)
- ScreenSpot:领先 GUI-Owl-32B 超过 15%
- OSWorld:在多任务复杂流程中,成功率高出同类模型近 20%
这意味着什么?意味着一个比手机还小的模型,能完成你让 AI 做的那些“琐碎但关键”的任务:
- 打开美团 → 搜索“火锅” → 筛选评分 4.8 以上 → 下单一份双人套餐 → 选择“到店自取” → 确认支付
- 登录淘宝 → 进入“我的订单” → 查找上周的快递单号 → 复制并粘贴到微信聊天框
- 打开微信 → 进入“服务” → 打开“健康码” → 截图保存 → 发送到钉钉
这些不是脚本,不是自动化工具,是 AI 自主决策、视觉理解、动作规划的完整闭环。它甚至能识别“加载中”“网络异常”“权限弹窗”等边缘情况,自动重试或跳过。

10 分钟上手,连小学生都能跑起来
你不需要 GPU 服务器,不需要 Docker,不需要懂代码。只要三步:
- 在电脑上安装 Python 3.10+
- 下载并安装 ADB(Android 调试桥,官方提供一键安装包)
- 用 USB 线把手机连上电脑,打开“开发者模式”和“USB 调试”
然后,运行一行命令:
python start_gelab.py --model gelab-zero-4b
不到 10 分钟,一个可视化界面就会弹出来——你将实时看到 AI 如何“盯着”手机屏幕,识别按钮、判断状态、滑动、输入、点击。它会告诉你:“我在找‘立即支付’按钮”,“当前页面卡住了,正在重试”,“已成功打开外卖 App”。
你甚至可以自己录一段操作视频,让模型模仿学习,训练属于你自己的“手机助手”。

不只是技术展示,是真实场景的“破局者”
GELab-Zero 的价值,远不止于“炫技”:
- 企业自动化:客服系统自动填单、财务报销自动截图上传、门店巡检自动拍照打卡
- 无障碍辅助:为视障用户开发“AI 手机导航”,自动朗读并操作界面
- App 测试革命:无需写脚本,AI 自动遍历 App 所有功能,发现崩溃点和 UI 错位
- 个人效率神器:让 AI 帮你每天自动登录 10 个账号、批量转发信息、定时抢券
去年,行业还在争论“AI 智能体什么时候能落地”;今年,GELab-Zero 给出了答案:
现在,就能落地。
它不靠算力堆砌,不靠数据垄断,而是用极简架构和真实世界反馈,重新定义了“AI 如何与物理世界交互”。这不仅是开源,更是一场“去中心化智能体”的革命。
立即体验,免费开源
你不需要等,也不需要申请权限。GELab-Zero-4B 已经开源,完全免费商用。
别再让 AI 只会聊天了。让它,真正“动手”。