OpenAI推理API新增WebSocket模式，代理式工具调用流程最高可提速40%

OpenAI在其模型调用接口Responses API中推出了WebSocket模式，允许开发者通过持久的WebSocket连接调用API，并在多轮交互中仅发送新增的输入内容，通过响应ID衔接前一次对话状态。OpenAI指出，该模式兼容零数据保留（ZDR）及不保存数据的配置，主要面向长时间运行且工具调用密集的代理型工作流。

OpenAI表示，WebSocket模式特别针对模型与工具之间需要反复交互的场景设计，例如代理式编程开发或任务调度流程。由于连接持续保持开启，每轮仅发送增量输入，可减少每轮重新衔接上下文的额外开销。官方提到，在包含20次以上工具调用的长链流程中，端到端执行时间最高可提升约40%。

与现有的HTTP调用方式相比，WebSocket模式延续对话状态的方式基本一致，只是在活跃连接中，服务端可通过更低延迟的方式进行衔接。服务端会在连接本地的内存缓存中保留最近一次响应的状态，若后续重用同一连接并延续最新一轮响应，即可复用该状态，降低衔接成本。由于状态仅保存在内存中，不写入磁盘，因此可兼容ZDR与不保留数据的配置。

单个WebSocket连接可接收多次请求，但会以串行方式执行，同一时间仅允许一个正在进行的响应，目前不支持并发，如需并行处理，开发者需自行建立多个连接。此外，连接最长维持60分钟，达到上限后需重新建立。

OpenAI提供了两种重连后恢复工作流的方法：若之前的响应已持久化且仍持有有效ID，可在新连接上延续之前的对话链；若无法延续，例如未启用保存功能或出现状态丢失，则需重新建立对话链，并重新提供后续轮次所需的完整上下文。OpenAI也要求开发者在应用层实现错误处理与重连策略。

VS Code扩展Cline分享了早期集成测试结果，Cline表示，在GPT-5.2 Codex模型场景下，相较于传统标准API调用方式，简单任务平均提速约15%，复杂的多文件工作流程提速约39%，个别最优案例可达50%。不过Cline也提醒，WebSocket握手过程会使短任务的初始延迟略有增加，但在工具调用频繁、轮次较多的负载下，整体加速效果更为显著。

CB科技站

OpenAI推理API新增WebSocket模式，代理式工具调用流程最高可提速40%

与本文相关的文章