
OpenAI
OpenAI昨(23)日公布自有代理人Operator,可代用户上网搜寻、打字及执行其他任务。Operator目前以研究预览版形式提供给美国的Pro付费用户试用,未来会逐步推向其他国家及方案。
Operator网页已经上线。Operator具有自己的浏览器,若用户需要它查询或操作网页,它可以和人类一样读取网页并在网页上打字、点击或下拉卷轴。它会代用户搜寻、提供建议,并在用户同意下代为执行如下单等任务。
Operator网页正上方有一行ChatGPT的提示输入列,下方有多项类别标籤,包括餐饮、快递/外送、旅游、购物等,每类标籤提供建议的网页以及预设的提示。例如OpenTable下预设了预订餐厅座位、或请它建议提供4.5星以上评价的餐厅等。用户也可以直接输入搜寻提示。根据执行长Sam Altman和其他OpenAI员工示範Operator的影片,Operator在OpenTable上打字搜寻到数家符合要求餐厅、回覆用户请求决定,并询问用户是否代为订位。
目前Operator为研究预览版,今天起已提供月费200美元的Pro方案美国用户使用。OpenAI表示这项服务会再推向其他地区,也会提供给Plus、Teams及Enterprise方案用户。而欧盟地区也必须再等等。
技术上,Operator使用的是名为使用电脑的代理人(Computer-Using Agent,CUA)。CUA结合GPT-4o的视觉能力及以强化式学习(reinforcement learning)训练出的进阶推理能力。CUA旨在和萤幕上的图形化使用者介面(graphical user interfaces,GUI)如按键、选单和文字栏位互动。
Operator的「观看」能力来自萤幕撷图,其萤幕互动能力是滑鼠和键盘允许的行为,因而它不需使用API整合就能在网页上执行任务。如果Operator遭遇困难或犯错,它会运用推理能力自行修正。而当卡住需要协助时,就会将控制权丢回给用户。
OpenAI表示CUA虽然还在开发阶段,但在标竿测试如WebArena及WebYoyager中,浏览器使用表现超过之前的SOTA(state of the art)模型。此外CUA在OSWorld标竿测试,也展现出比之前SOTA模型更好的电脑使用能力。
Operator使用很容易,用户可以在提示键中输入自然语言描述想做的任务。在任何网站上,用户都可加入客製指令建立个人化作业流程,像是Booking.com上设定偏好的航空公司,也能在特定网页上储存提示以加速日后使用,例如在eBay上添购日常用品。Operator还能像浏览器一样多工作业,可允许另起对话执行新的任务,像是一边订房、一边订机票。不过OpenAI强调在任何作业上,用户都可随时接手主控权。
目前OpenAI和多家电商或线上服务业者合作,包括DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber、eBay、路透社等,以提供更流畅的自动化服务。
另一方面,OpenAI强调安全与隐私。除了加入护栏确保模型不被滥用,OpenAI为Operator加入行为限制以确保隐私。例如在需要登入、支付资讯或解决CAPTCHA时,会主动要求用户自行输入付款资讯或密码。在完成重要任务,如送出email或下单前,Operator要求用户许可。尤其在高度敏感站像是电子邮件或银行网站,它会要求用户检查。它也会拒绝高度敏感任务,例如转帐或投递履历。
OpenAI允许用户在ChatGPT设定中关闭「为所有人改进模型」,以防止Operator对话被用于训练模型。用户也可以在Operator设定的「隐私」页中,删除所有上网资料及登出网站。不过Techcrunch报导,即使用户删除,资料还是会在系统内保存90天,超过ChatGPT的30天。