AI2开源视觉网页代理MolmoWeb，并公开模型数据与评测工具

Ai2发布开源视觉网页代理系统MolmoWeb，该系统基于Molmo 2多模态模型家族，提供4B与8B两种模型规模，并公开了模型权重、训练数据、代理与推理代码及评估工具，训练代码将在稍后公开。MolmoWeb可自行部署，能根据任务指令与当前网页截图，直接在浏览器中执行点击、输入、滚动等操作。

Ai2除了发布MolmoWeb，还公开了数据集MolmoWebMix、可复现的模型检查点与数据收集工具。Ai2指出，目前性能较强的网页代理大多为封闭系统，外界通常难以了解其训练数据、方法与评估流程。Ai2提供了更完整的开放资源，让研究者与开发者能够从数据、模型到部署流程进行全面审视。

MolmoWeb采用以画面为主的操作方式，不依赖HTML或无障碍树（Accessibility Tree）等结构化页面表示。系统每一步接收任务指令、当前页面截图与近期操作记录，再输出简短推理与下一个动作。支持的操作包括打开网址、按屏幕坐标点击、在输入框中输入文字、滚动页面、切换标签页，以及向用户返回信息。Ai2认为，直接读取截图可避免结构化页面序列化后占用大量token，也更贴近普通人实际使用浏览器的方式。

Ai2特别强调，MolmoWeb并非通过模仿商业视觉代理的操作结果进行训练。官方表示，其训练数据主要来自两类来源：一是由仅读取无障碍树的文字代理生成的合成操作轨迹，二是人工示范。MolmoWebMix数据集中，人工部分包含3.6万条任务轨迹、超过62.3万条子任务示范，覆盖超过1,100个网站。此外还包括屏幕问答、元素定位与合成操作数据，其中截图问答数据超过220万组。Hugging Face的MolmoWeb-Data页面列出了HumanTrajs、SyntheticTrajs、SyntheticQA等多个子数据集。

在性能方面，Ai2公布MolmoWeb 8B在WebVoyager上的成功率为78.2%，在DeepShop上为42.3%，在WebTailBench上为49.5%，并宣称优于Fara-7B等开源模型。若采用多次尝试中选取最佳表现的方式，WebVoyager的pass@4可提升至94.7%，Online-Mind2Web可达60.5%。

MolmoWeb已在GitHub提供代理代码、客户端、安装方法与评估相关资源，Hugging Face页面则提供4B、8B，以及4B-Native、8B-Native等Native检查点。官方也披露了当前限制：MolmoWeb仍可能误读截图中的文字，也可能因网页尚未加载完成就提前滚动而导致任务偏离。对于需要登录或金融交易的任务，MolmoWeb目前未纳入训练；特定区域内的滚动与拖放等操作，仍具挑战性。

CB科技站

AI2开源视觉网页代理MolmoWeb，并公开模型数据与评测工具

与本文相关的文章