GELab-Zero：阶跃星辰推出首个手机端多模态Agent工程套件

GELab-Zero：让AI真正“用手”操作手机，开源即用，零模拟、零标注

你有没有想过，AI 可以像你一样，打开微信、刷抖音、点外卖、填表单、登录账号——不是靠脚本，不是靠模拟器，而是真真切切地“看到”屏幕、“理解”界面、“动手”点击？

今天，阶跃星辰（StepFun）正式开源 GELab-Zero，国内首个真正能在真实 Android 手机上“像人一样操作 App”的多模态智能体系统。没有模拟器，没有预设路径，不需要人工标注数据，只要你有一台 Android 手机、一根 USB 数据线，和一台电脑，10 分钟内，就能让 AI 开始“自己玩手机”。

为什么说 GELab-Zero 是一次“颠覆性突破”？

过去几年，AI 智能体在网页、API、结构化数据上进展飞快，但一碰到真实手机界面就“失明”——因为每个 App 的 UI 都不一样：有的是深色模式，有的是英文界面，有的动画慢半拍，有的按钮位置还会动态偏移。传统方案要么依赖昂贵的模拟环境，要么靠人工标注成千上万张截图，成本高、泛化差、落地难。

GELab-Zero 直接跳过这些“弯路”：

不依赖任何模拟器——直接连真机
不采集人工标注数据——完全靠真实操作反馈学习
不预设任何操作路径——从像素出发，自己看、自己想、自己动

它不是“调用接口”，而是“像人一样”读屏、分析、决策、点击。哪怕你换了一台新手机、升级了系统、换了 App 版本，它也能自动适应——因为它的“经验”来自真实世界，而不是人造数据集。

4B 参数，性能碾压百倍大模型

你没看错——GELab-Zero-4B，只有 40 亿参数，却在多个权威基准测试中，全面超越参数是它 8 倍以上的竞品：

AndroidDaily：准确率 73.4% —— 远超 UI-TARS（47%）、Gemini 2.5 Pro（36.6%）、GPT-4o（19.6%）
ScreenSpot：领先 GUI-Owl-32B 超过 15%
OSWorld：在多任务复杂流程中，成功率高出同类模型近 20%

这意味着什么？意味着一个比手机还小的模型，能完成你让 AI 做的那些“琐碎但关键”的任务：

打开美团 → 搜索“火锅” → 筛选评分 4.8 以上 → 下单一份双人套餐 → 选择“到店自取” → 确认支付
登录淘宝 → 进入“我的订单” → 查找上周的快递单号 → 复制并粘贴到微信聊天框
打开微信 → 进入“服务” → 打开“健康码” → 截图保存 → 发送到钉钉

这些不是脚本，不是自动化工具，是 AI 自主决策、视觉理解、动作规划的完整闭环。它甚至能识别“加载中”“网络异常”“权限弹窗”等边缘情况，自动重试或跳过。

10 分钟上手，连小学生都能跑起来

你不需要 GPU 服务器，不需要 Docker，不需要懂代码。只要三步：

在电脑上安装 Python 3.10+
下载并安装 ADB（Android 调试桥，官方提供一键安装包）
用 USB 线把手机连上电脑，打开“开发者模式”和“USB 调试”

然后，运行一行命令：

python start_gelab.py --model gelab-zero-4b

不到 10 分钟，一个可视化界面就会弹出来——你将实时看到 AI 如何“盯着”手机屏幕，识别按钮、判断状态、滑动、输入、点击。它会告诉你：“我在找‘立即支付’按钮”，“当前页面卡住了，正在重试”，“已成功打开外卖 App”。

你甚至可以自己录一段操作视频，让模型模仿学习，训练属于你自己的“手机助手”。

不只是技术展示，是真实场景的“破局者”

GELab-Zero 的价值，远不止于“炫技”：

企业自动化：客服系统自动填单、财务报销自动截图上传、门店巡检自动拍照打卡
无障碍辅助：为视障用户开发“AI 手机导航”，自动朗读并操作界面
App 测试革命：无需写脚本，AI 自动遍历 App 所有功能，发现崩溃点和 UI 错位
个人效率神器：让 AI 帮你每天自动登录 10 个账号、批量转发信息、定时抢券

去年，行业还在争论“AI 智能体什么时候能落地”；今年，GELab-Zero 给出了答案：

现在，就能落地。

它不靠算力堆砌，不靠数据垄断，而是用极简架构和真实世界反馈，重新定义了“AI 如何与物理世界交互”。这不仅是开源，更是一场“去中心化智能体”的革命。

立即体验，免费开源

你不需要等，也不需要申请权限。GELab-Zero-4B 已经开源，完全免费商用。

别再让 AI 只会聊天了。让它，真正“动手”。

CB科技站