最新消息:关注人工智能 AI赋能新媒体运营

OpenAI推理API新增WebSocket模式,代理式工具调用流程最高可提速40%

科技资讯 admin 浏览

OpenAI在其模型调用接口Responses API中推出了WebSocket模式,允许开发者通过持久的WebSocket连接调用API,并在多轮交互中仅发送新增的输入内容,通过响应ID衔接前一次对话状态。OpenAI指出,该模式兼容零数据保留(ZDR)及不保存数据的配置,主要面向长时间运行且工具调用密集的代理型工作流。

OpenAI表示,WebSocket模式特别针对模型与工具之间需要反复交互的场景设计,例如代理式编程开发或任务调度流程。由于连接持续保持开启,每轮仅发送增量输入,可减少每轮重新衔接上下文的额外开销。官方提到,在包含20次以上工具调用的长链流程中,端到端执行时间最高可提升约40%。

与现有的HTTP调用方式相比,WebSocket模式延续对话状态的方式基本一致,只是在活跃连接中,服务端可通过更低延迟的方式进行衔接。服务端会在连接本地的内存缓存中保留最近一次响应的状态,若后续重用同一连接并延续最新一轮响应,即可复用该状态,降低衔接成本。由于状态仅保存在内存中,不写入磁盘,因此可兼容ZDR与不保留数据的配置。

单个WebSocket连接可接收多次请求,但会以串行方式执行,同一时间仅允许一个正在进行的响应,目前不支持并发,如需并行处理,开发者需自行建立多个连接。此外,连接最长维持60分钟,达到上限后需重新建立。

OpenAI提供了两种重连后恢复工作流的方法:若之前的响应已持久化且仍持有有效ID,可在新连接上延续之前的对话链;若无法延续,例如未启用保存功能或出现状态丢失,则需重新建立对话链,并重新提供后续轮次所需的完整上下文。OpenAI也要求开发者在应用层实现错误处理与重连策略。

VS Code扩展Cline分享了早期集成测试结果,Cline表示,在GPT-5.2 Codex模型场景下,相较于传统标准API调用方式,简单任务平均提速约15%,复杂的多文件工作流程提速约39%,个别最优案例可达50%。不过Cline也提醒,WebSocket握手过程会使短任务的初始延迟略有增加,但在工具调用频繁、轮次较多的负载下,整体加速效果更为显著。