AI2开源MolmoWeb：仅靠视觉理解与操控网页

MolmoWeb：不看代码，只看屏幕的网页助手

艾伦人工智能研究所（AI2）最近放出一个让人眼前一亮的工具——MolmoWeb。它不像其他网页自动化工具那样去读HTML、CSS或者JavaScript，而是像人一样，只盯着浏览器屏幕看。你看到什么，它就做什么：看到按钮就点，看到下一页就翻，看到长页面就往下拉。没有复杂的代码解析，没有容易出错的元素定位，它靠的，就是一张张截图。

这听起来简单，但效果惊人。传统工具一遇到网页改版就崩，而MolmoWeb几乎不受影响——因为人看界面不会因为一个class名改了就找不到按钮，它也不会。

小模型，大能量：80亿参数干翻大厂

MolmoWeb只有40亿或80亿参数，听起来比GPT-4、Claude 3小得多，但它在真实任务中的表现却让人意外。

在权威测试平台WebVoyager上，80亿版本的MolmoWeb拿到了78.2分，离OpenAI的o3模型（79.3分）只差一步。这意味着，一个完全开源、不靠闭源算力堆出来的模型，已经能跟行业顶尖的商业产品掰手腕。

更厉害的是，如果你让它多试几次，挑最好的结果用，成功率能飙到94.7%——相当于你让一个人帮你查机票、订酒店、填表，他试五次，四次半都能搞定。

在定位按钮、菜单、输入框这些细活上，它甚至超过了Anthropic的Claude 3.7。要知道，Claude可是靠千亿级参数和海量数据训练出来的，而MolmoWeb，靠的是“看得准”。

数据不是靠猜的，是真人干出来的

再强的模型，也得有好数据喂。AI2这次没藏着掖着，直接扔出一个叫MolmoWebMix的超大数据集，全公开，谁都能用。

这里面有3.6万条真实人类操作记录——不是机器人模拟的，是真人坐在电脑前，完成从订机票到比价购物、从查政策到填申请表这些日常任务时，一屏一屏截图保存下来的。

还有超过220万个截图+问题的配对，比如：“这张图里怎么找‘立即购买’按钮？”“这个页面能订周五的火车票吗？”

更有趣的是，他们还用GPT-4o生成了大量合成数据。结果发现，有些“AI编”的操作路径，比真人做的还高效——不是乱点，而是学会了避开广告、跳过弹窗、直奔目标。这说明，模型不只是在模仿，它开始理解“人为什么要这么操作”。

开源，不是口号，是行动

MolmoWeb的模型权重、代码、数据集，全部放在Hugging Face和GitHub上，用的是Apache 2.0协议——你可以免费用，改，甚至拿去做商业产品，不用交钱，不用申请，不用怕被封。

这在今天特别难得。大厂都在悄悄收拢能力，把AI锁在API后面。AI2却说：我们不靠垄断赚钱，我们靠让所有人能用、能改、能创新。

当然，它现在还不完美。遇到登录页、验证码、复杂的法律弹窗，它还是会懵。但这些，正是社区可以一起解决的问题。你发现它在某个网站点错按钮？你可以录一段操作，上传数据，帮它学得更好。

这不是实验室里的玩具。它是一个开放的、可进化的工具——适合开发者做自动化测试，适合研究人员探索视觉智能，也适合普通人用它来自动填表、比价、抓信息。你不需要懂技术，只要会看屏幕，它就能帮你动手。

未来，也许我们不再需要写脚本、装插件、学XPath。你只要说一句：“帮我查一下这个酒店的取消政策”，MolmoWeb就能打开浏览器，自己去看、去读、去告诉你答案。

它不完美，但它真实、透明、属于每个人。

MolmoWeb 视觉驱动网络代理开源AI代理 WebVoyager

CB科技站

AI2开源MolmoWeb：仅靠视觉理解与操控网页

MolmoWeb：不看代码，只看屏幕的网页助手

小模型，大能量：80亿参数干翻大厂

数据不是靠猜的，是真人干出来的

开源，不是口号，是行动

与本文相关的文章