
Amazon
Amazon今日(4/1)发表可于网页浏览器中执行各种任务的Amazon Nova Act模型,以及供开发人员存取该模型的Amazon Nova Act SDK预览版。
相较于其它模型,Nova Act强调的是可靠度,专注于可被组合成更複杂工作流程的可靠基础构件。Amazon表示,许多代理人的基準测试是用来衡量高阶任务的模型效能,其中,最先进的模型在完成网页浏览器任务时可实现30%~60%的準确率,然而,代理人必须可靠才能真正发挥作用,因此Amazon的内部评估锁定的是让那些其它模型无法实现的功能达到90%以上的分数,例如日期选择、下拉式功能表与弹出窗口等。
Amazon比较了Nova Act、Claude 3.7 Sonnet与OpenAI CUA在与网页文字互动(ScreenSpot Web Text)、与网页上的图示互动(ScreenSpot Web Icon),以及与网页上各种互动元素互动(GroundUI Web)的能力,显示它在前两项分别以0.939及0.879的成绩超越其它两个模型,GroundUI Web也有0.805的成绩,微幅落后竞争者。
注重可靠性的结果是一旦一切正常运转,就不必观察它执行每一个操作,将代理人变成能够整合到产品中的API,甚至可依据所需的任何时间表异步执行。
Nova Act SDK则让开发人员能够将複杂的工作流程分解为可靠的原子命令,不管是搜寻、结帐,抑或是回答有关萤幕的问题,也能在需要时替这些命令添增更详细的说明,呼叫各种API,或是交替使用Playwright直接操作浏览器来强化可靠性,并可嵌入Python程序码来进行测试、断点,或是用于平行处理的执行绪池。
因此,透过该SDK,开发人员即能建立可于浏览器中完成任务的代理程序,像是于内部系统中提交外出办公的请求,空出日曆以显示即将外出办公,以及发送外出办公的电子邮件。
Amazon表示,儘管Nova Act仍处于早期阶段,但他们已对该模型的跨环境理解能力感到讶异,例如虽然没有任何电玩经验,但它似乎也能在网页游戏等新环境中成功运作;目前该公司已在Alexa+中採用Nova Act,当所整合的服务无法提供所有必要API时,Nova Act可自动浏览网路,代表使用者完成任务。
对Nova Act功能有兴趣的开发人员,可透过Amazon新成立的Nova入口网站取得Nova Act SDK研究预览版。图片来源/Amazon