
OpenAI
OpenAI周二发表首批协助开发人员及企业更快自己打造AI代理人的工具套件,包括新的Responses API及Agents SDK。
过去这几年OpenAI推出了多种模型新功能,包括进阶推理、多模态互动,以及安全技术,使其模型得以处理複杂、多步骤任务,以方便企业打造AI代理人。但是仍有企业觉得把这些功能加入代理人难度很高,往往需要多次提示迭代及自订协调逻辑,但透通管理或支援功能不足。
为解决这些问题,OpenAI公布了一系列新API和工具,专门用以简化代理人应用程序的开发。首先是新推出的Responses API,它结合Chat Completions API的简易性及Assistants API使用工具的能力。其次是内建于Responses API的工具,包含网页搜寻、文件搜寻及电脑使用模型。
三种能力中,Responses API的网页搜寻功能现为预览版。同时间,Chat Completions API则提供微调过的搜寻模型gpt-4o-search-preview 及 gpt-4o-mini-search-preview(费用在此)。Responses API的文件搜寻功能定价为每千次查询2.5美元,文件储存功能为1日1GB 0.1美元,第1GB免费。Responses API的电脑使用能力/模型与Operator的使用电脑的代理人(Computer-Use Agent,CUA)模型相同。OpenAI强调在电脑及浏览器使用效能上优于业界的SOTA。
其次,OpenAI还宣布新增Agents SDK,可用以协调单一或多代理人的工作流程。这个SDK可和Responses API、Chat Completions API结合使用,也能整合其他业者的模型,只要后者提供类似Chat Completions的API端点。Agents SDK也整合了追蹤和监看代理人工作流程的可观测性(observability)工具。
OpenAI现已将Agents SDK开源,并强调它协调多代理人工作流程的能力,较去年释出的实验版SDK Swarm有多方改进,包括更容易配置的LLM、代理人间的智慧交接控制、安全护栏,以及视觉化追蹤、除错及优化能力。开发人员可以立即将Agents SDK整合到Python codebase,OpenAI说,之后也会支援Node.js。
OpenAI相信这些新工具能简化核心代理人逻辑、协调和互动,方便开发人员着手打造代理人。OpenAI计画未来几个星期到几个月内,会再发表其他工具,进一步简化在其平台上自建代理人的难度。图片来源/OpenAI