最新消息:关注人工智能 AI赋能新媒体运营

AI2开源视觉网页代理MolmoWeb,并公开模型数据与评测工具

科技资讯 admin 浏览

Ai2发布开源视觉网页代理系统MolmoWeb,该系统基于Molmo 2多模态模型家族,提供4B与8B两种模型规模,并公开了模型权重、训练数据、代理与推理代码及评估工具,训练代码将在稍后公开。MolmoWeb可自行部署,能根据任务指令与当前网页截图,直接在浏览器中执行点击、输入、滚动等操作。

Ai2除了发布MolmoWeb,还公开了数据集MolmoWebMix、可复现的模型检查点与数据收集工具。Ai2指出,目前性能较强的网页代理大多为封闭系统,外界通常难以了解其训练数据、方法与评估流程。Ai2提供了更完整的开放资源,让研究者与开发者能够从数据、模型到部署流程进行全面审视。

MolmoWeb采用以画面为主的操作方式,不依赖HTML或无障碍树(Accessibility Tree)等结构化页面表示。系统每一步接收任务指令、当前页面截图与近期操作记录,再输出简短推理与下一个动作。支持的操作包括打开网址、按屏幕坐标点击、在输入框中输入文字、滚动页面、切换标签页,以及向用户返回信息。Ai2认为,直接读取截图可避免结构化页面序列化后占用大量token,也更贴近普通人实际使用浏览器的方式。

Ai2特别强调,MolmoWeb并非通过模仿商业视觉代理的操作结果进行训练。官方表示,其训练数据主要来自两类来源:一是由仅读取无障碍树的文字代理生成的合成操作轨迹,二是人工示范。MolmoWebMix数据集中,人工部分包含3.6万条任务轨迹、超过62.3万条子任务示范,覆盖超过1,100个网站。此外还包括屏幕问答、元素定位与合成操作数据,其中截图问答数据超过220万组。Hugging Face的MolmoWeb-Data页面列出了HumanTrajs、SyntheticTrajs、SyntheticQA等多个子数据集。

在性能方面,Ai2公布MolmoWeb 8B在WebVoyager上的成功率为78.2%,在DeepShop上为42.3%,在WebTailBench上为49.5%,并宣称优于Fara-7B等开源模型。若采用多次尝试中选取最佳表现的方式,WebVoyager的pass@4可提升至94.7%,Online-Mind2Web可达60.5%。

MolmoWeb已在GitHub提供代理代码、客户端、安装方法与评估相关资源,Hugging Face页面则提供4B、8B,以及4B-Native、8B-Native等Native检查点。官方也披露了当前限制:MolmoWeb仍可能误读截图中的文字,也可能因网页尚未加载完成就提前滚动而导致任务偏离。对于需要登录或金融交易的任务,MolmoWeb目前未纳入训练;特定区域内的滚动与拖放等操作,仍具挑战性。