微软发布开源权重模型Fara-7B,这是一款计算机使用(Computer Use)代理模型,主打以约70亿参数规模在个人设备上自动操作真实网页。官方表示,Fara-7B模型为研究性质,建议在沙箱环境中实验,避免涉及高度敏感数据或高风险网站。
Fara-7B被设计为计算机使用代理,直接读取浏览器窗口截图,推断下一步应将鼠标移动到何处点击、何时滚动页面、在哪个输入框中输入文字。它不依赖无障碍树(Accessibility Tree)等额外结构化信息,而是尽量模拟普通用户的实际操作方式。微软预期,开发者可利用Fara-7B协助填写在线表单、搜索与整理信息、比价购物、订票或管理云服务账号,但前提是需有人类监督与复核,并非完全放手交给代理。
在模型设计上,Fara-7B以多模态基础模型Qwen2.5-VL-7B为底座,支持长内容输入,并通过监督式微调,使模型学会在观察画面、思考下一步与下达行动的流程中完成任务。每一步推理时,Fara-7B会综合用户指令、过往操作历史与最近三张浏览器截图,先生成内部思考,再输出一次工具调用,对应浏览器自动化框架Playwright的鼠标与键盘动作,或web_search、visit_url等浏览宏命令。
微软以WebVoyager、Online-Mind2Web、DeepShop以及新提出的WebTailBench等基准,与其他计算机使用代理与大模型代理进行比较。官方数据显示,在WebVoyager与WebTailBench上,Fara-7B的任务成功率不仅优于同样基于Qwen2.5-VL-7B的UI-TARS-1.5-7B,也具备与OpenAI计算机使用预览版等系统竞争的水平。由于Fara-7B平均完成任务所需步骤更少,意味着更低的计算开销,在成本上更具优势。
Fara-7B在执行任务时,仅处理浏览器截图、用户任务指令与代理自身的操作历史,不额外访问网站内部结构数据,强调仅收集完成任务所需的最小信息,且所有代理行为均完整记录,便于事后审计与回溯。
训练数据中也加入了安全相关案例与应拒绝的任务,并通过WebTailBench-Refusals测试显示,模型对红队场景具有明显拒绝能力。微软在训练过程中特别强化关键情境,例如输入个人信息或进行支付等不可逆操作时,代理必须暂停并请求用户确认,最终决策权始终保留给人类。
目前Fara-7B已集成至Magentic-UI研究原型,开发者可在受控界面中观察代理如何一步步操作网页,也可通过Microsoft Foundry、Hugging Face或VS Code的AI工具包下载模型,进行本地计算机使用代理的实测。