最新消息:关注人工智能 AI赋能新媒体运营

Vercel发布Agent Browser:大模型可直接操作网页

科技资讯 admin 浏览

Vercel推出Agent Browser:让AI真能“动手”操作网页

你有没有想过,AI不仅能看懂网页内容,还能替你点按钮、填表单、提交订单?Vercel最近上线了一个叫Agent Browser的工具,让这个场景变成了现实。它不是一个聊天机器人,而是一个能直接控制浏览器的命令行工具,开发者只要写几行指令,AI就能像真人一样在网页上操作。

过去,想让程序自动操作网页,得写一堆代码,装ChromeDriver、配置Selenium、处理加载延迟……现在,Agent Browser把这一切都封装好了。安装完直接用,不用管浏览器驱动、不用配环境变量。你甚至不需要懂前端,只要告诉AI“去京东搜iPhone 15,找最低价,截图结果”,它就能真正在浏览器里完成这一整套动作。

G-gVcY0bsAER8HW.jpg

调试看得见,跑任务静悄悄

开发时,你可以打开可视化模式,亲眼看着AI怎么点击、怎么输入、哪里卡住了——就像在看一个新手在操作电脑。调试好了,一键切换到后台模式,几十个任务并行跑,不弹窗、不占屏幕,适合做自动化测试、批量抓取商品价格、自动填写报销单这类重复性工作。

有开发者测试过:用它自动登录企业OA系统,填写月度工时表,再上传附件,全程无需人工干预,准确率接近98%。这在以前,要么靠RPA软件,要么得专门雇人做——现在,一个脚本就能搞定。

不拖后腿,只给关键信息

传统工具把整个网页源码一股脑丢给AI,动辄几万字,AI得从一堆无用标签里找按钮,慢还容易错。Agent Browser不一样——它只提取真正能点的元素:按钮、输入框、下拉菜单,连文字都只传可见部分。结果是,AI处理速度提升3倍以上,出错率下降近七成。

底层用Rust重写,启动快、内存占用低。同样的任务,用Python+Playwright可能要占用800MB内存,Agent Browser只要200MB左右。跑在树莓派或者云服务器上,都不卡顿。

不挑AI,谁都能用

你用Claude、Gemini、Copilot、Cursor,甚至本地部署的开源模型,都没关系。只要能调用命令行,就能接上Agent Browser。它不绑定任何AI服务商,也不需要API密钥——你用什么AI,它就听谁的。

有人已经把它和GitHub Copilot连起来,写个注释:“帮我订下周五下午3点从北京到上海的高铁二等座”,AI自动打开12306,选车次、填身份证、支付——整个流程走完,你连页面都没点过。

不是未来,是现在就能用

这不是概念演示。已经有团队用它做电商比价机器人,每天自动监控1000+商品价格,生成报表;有HR用它自动抓取招聘网站的岗位信息,整理成Excel;还有个人开发者用它做自己的“数字助手”,自动登录邮箱、下载附件、转发给指定人。

你不需要是程序员才能用。哪怕你只会复制粘贴命令,也有现成的模板:一键登录微信公众号后台、自动导出数据、定时提交表单……GitHub上已经有人分享了20多个实用脚本。

这不再是“AI能回答问题”,而是“AI能替你做事”。Vercel这次没搞花哨的模型,而是把工具做成了真正的杠杆——你动动嘴,它动手。

项目地址:https://github.com/vercel-labs/agent-browser