阿里巴巴开源Page Agent:让大模型直接“读懂”网页DOM
浏览器自动化开发里,开发者似乎总在重复“造轮子”。复杂截图或底层协议驱动,常常因为网页结构动态变化而失效。阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,提供了一种新思路:它不再从外部暴力破解网页,而是让大模型直接运行在网页内部,读懂 DOM 结构。
Page Agent 的核心技术叫“DOM 脱水”。传统方案为了让 AI 识别页面,需要对网页截屏并进行多模态分析,开销大,还容易丢失关键交互信息。Page Agent 直接在网页内运行,把冗杂的 DOM 树压缩成轻量化的“FlatDomTree”纯文本映射。这等于为 AI 绘制了一份高精度的交互地图,模型无需处理复杂的视觉渲染,仅凭这份精简的结构映射,就能完成按钮点击、表单输入等操作。
对开发者来说,内嵌式设计带来了明显便利。由于直接运行在网页环境下,它天然继承了所有 Cookie、会话状态与登录凭证,省去了后端处理复杂验证流程的麻烦。项目采用开放的兼容设计,能无缝接入任何支持标准接口的大语言模型。在 SaaS 产品智能副驾、自动化数据采集、提升 Web 应用无障碍交互等场景中,Page Agent 提供了一种高效且性价比突出的替代方案。
当然,Page Agent 并非万能钥匙。开发团队在开源文档中明确指出,这个库目前更专注于单页面内的高效交互。在处理涉及支付或数据篡改等高安全敏感操作时,开发者仍需在服务端实施严格的逻辑校验。为了系统稳健,Page Agent 在设计中采用提示词触发的权限管控机制,为自动化流程筑起一道初步的安全防线。
目前,Page Agent 已在 GitHub 以 MIT 协议开源。随着这一工具的发布,开发者有望告别昂贵的多模态算力消耗,以更务实的工程手段,为应用植入真正具备“网页感知力”的智能体。AI 网页自动化技术,可能正进入一个轻量化、普及化的新阶段。