最新消息:关注人工智能 AI赋能新媒体运营

阿里开源Page Agent,让大模型读懂DOM

科技资讯 admin 浏览

阿里开源 Page Agent,让浏览器自动化直接在页面内完成

浏览器自动化领域长期依赖 Selenium、Playwright 或 Puppeteer 这类外部工具,通过截图或底层协议来驱动网页。阿里巴巴近期开源了一款名为 Page Agent 的 JavaScript 客户端库,换了一种思路:它把自动化从外部驱动变成了页面内部的直接操作。

Page Agent 概念图

Page Agent 的核心技术叫做“DOM 脱水”。传统方案通常需要把复杂的网页转成多模态图片交给 AI 识别,而 Page Agent 直接在网页内部运行,将实时 DOM 结构压缩成一种轻量化的纯文本映射,称为“FlatDomTree”。这样一来,模型不需要处理繁重的视觉信息,只靠精简的结构文本,就能精准定位并执行点击按钮、填写表单等指令。

DOM 脱水示意图

对开发者来说,这种方案的好处很明显。Page Agent 直接嵌入页面运行,可以无缝继承用户的 Cookie 和会话信息,省去了后端对接和身份验证的麻烦。项目采用模型无关的设计,支持任何兼容 OpenAI 接口的大语言模型。在构建 SaaS 产品内的 AI 副驾、自动化表单处理,或者提升应用的无障碍交互能力这些场景中,Page Agent 都能提供一个成本可控的落地方案。

应用场景示意图

尽管 Page Agent 在易用性上表现不错,开发团队也划出了技术边界:目前这个库只聚焦单页面范围内的交互。同时,出于安全考虑,基于提示词的权限管控(比如“禁止自动支付”)属于引导性限制,并不是硬性的逻辑隔离。对于涉及资金划拨或数据修改等高风险操作,开发者仍然需要在服务端保留严格的校验机制。

目前,Page Agent 已在 GitHub 以 MIT 协议开源。对于那些想在自有应用中快速嵌入 AI 操作能力,又不愿投入高昂多模态模型成本的团队,这提供了一个高效且务实的工程选择。