OpenAI公布AI代理人Operator，美国Pro方案用户先试用

图片来源:

OpenAI

OpenAI昨（23）日公布自有代理人Operator，可代用户上网搜寻、打字及执行其他任务。Operator目前以研究预览版形式提供给美国的Pro付费用户试用，未来会逐步推向其他国家及方案。

Operator网页已经上线。Operator具有自己的浏览器，若用户需要它查询或操作网页，它可以和人类一样读取网页并在网页上打字、点击或下拉卷轴。它会代用户搜寻、提供建议，并在用户同意下代为执行如下单等任务。

Operator网页正上方有一行ChatGPT的提示输入列，下方有多项类别标籤，包括餐饮、快递/外送、旅游、购物等，每类标籤提供建议的网页以及预设的提示。例如OpenTable下预设了预订餐厅座位、或请它建议提供4.5星以上评价的餐厅等。用户也可以直接输入搜寻提示。根据执行长Sam Altman和其他OpenAI员工示範Operator的影片，Operator在OpenTable上打字搜寻到数家符合要求餐厅、回覆用户请求决定，并询问用户是否代为订位。

目前Operator为研究预览版，今天起已提供月费200美元的Pro方案美国用户使用。OpenAI表示这项服务会再推向其他地区，也会提供给Plus、Teams及Enterprise方案用户。而欧盟地区也必须再等等。

技术上，Operator使用的是名为使用电脑的代理人（Computer-Using Agent，CUA）。CUA结合GPT-4o的视觉能力及以强化式学习（reinforcement learning）训练出的进阶推理能力。CUA旨在和萤幕上的图形化使用者介面（graphical user interfaces，GUI）如按键、选单和文字栏位互动。

Operator的「观看」能力来自萤幕撷图，其萤幕互动能力是滑鼠和键盘允许的行为，因而它不需使用API整合就能在网页上执行任务。如果Operator遭遇困难或犯错，它会运用推理能力自行修正。而当卡住需要协助时，就会将控制权丢回给用户。

OpenAI表示CUA虽然还在开发阶段，但在标竿测试如WebArena及WebYoyager中，浏览器使用表现超过之前的SOTA（state of the art）模型。此外CUA在OSWorld标竿测试，也展现出比之前SOTA模型更好的电脑使用能力。

Operator使用很容易，用户可以在提示键中输入自然语言描述想做的任务。在任何网站上，用户都可加入客製指令建立个人化作业流程，像是Booking.com上设定偏好的航空公司，也能在特定网页上储存提示以加速日后使用，例如在eBay上添购日常用品。Operator还能像浏览器一样多工作业，可允许另起对话执行新的任务，像是一边订房、一边订机票。不过OpenAI强调在任何作业上，用户都可随时接手主控权。

目前OpenAI和多家电商或线上服务业者合作，包括DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber、eBay、路透社等，以提供更流畅的自动化服务。

另一方面，OpenAI强调安全与隐私。除了加入护栏确保模型不被滥用，OpenAI为Operator加入行为限制以确保隐私。例如在需要登入、支付资讯或解决CAPTCHA时，会主动要求用户自行输入付款资讯或密码。在完成重要任务，如送出email或下单前，Operator要求用户许可。尤其在高度敏感站像是电子邮件或银行网站，它会要求用户检查。它也会拒绝高度敏感任务，例如转帐或投递履历。

OpenAI允许用户在ChatGPT设定中关闭「为所有人改进模型」，以防止Operator对话被用于训练模型。用户也可以在Operator设定的「隐私」页中，删除所有上网资料及登出网站。不过Techcrunch报导，即使用户删除，资料还是会在系统内保存90天，超过ChatGPT的30天。

CB科技站

OpenAI公布AI代理人Operator，美国Pro方案用户先试用

与本文相关的文章