阿里开源Page Agent，让大模型读懂DOM

阿里开源 Page Agent，让浏览器自动化直接在页面内完成

浏览器自动化领域长期依赖 Selenium、Playwright 或 Puppeteer 这类外部工具，通过截图或底层协议来驱动网页。阿里巴巴近期开源了一款名为 Page Agent 的 JavaScript 客户端库，换了一种思路：它把自动化从外部驱动变成了页面内部的直接操作。

Page Agent 的核心技术叫做“DOM 脱水”。传统方案通常需要把复杂的网页转成多模态图片交给 AI 识别，而 Page Agent 直接在网页内部运行，将实时 DOM 结构压缩成一种轻量化的纯文本映射，称为“FlatDomTree”。这样一来，模型不需要处理繁重的视觉信息，只靠精简的结构文本，就能精准定位并执行点击按钮、填写表单等指令。

对开发者来说，这种方案的好处很明显。Page Agent 直接嵌入页面运行，可以无缝继承用户的 Cookie 和会话信息，省去了后端对接和身份验证的麻烦。项目采用模型无关的设计，支持任何兼容 OpenAI 接口的大语言模型。在构建 SaaS 产品内的 AI 副驾、自动化表单处理，或者提升应用的无障碍交互能力这些场景中，Page Agent 都能提供一个成本可控的落地方案。

尽管 Page Agent 在易用性上表现不错，开发团队也划出了技术边界：目前这个库只聚焦单页面范围内的交互。同时，出于安全考虑，基于提示词的权限管控（比如“禁止自动支付”）属于引导性限制，并不是硬性的逻辑隔离。对于涉及资金划拨或数据修改等高风险操作，开发者仍然需要在服务端保留严格的校验机制。

目前，Page Agent 已在 GitHub 以 MIT 协议开源。对于那些想在自有应用中快速嵌入 AI 操作能力，又不愿投入高昂多模态模型成本的团队，这提供了一个高效且务实的工程选择。

开源自动化工具阿里巴巴 Page Agent DOM脱水技术

CB科技站

阿里开源Page Agent，让大模型读懂DOM

阿里开源 Page Agent，让浏览器自动化直接在页面内完成

与本文相关的文章