OpenAI被曝筹备发布新一代双向语音模型GPT-Bidi-1

OpenAI筹备推出GPT-Bidi-1双向音频模型，升级ChatGPT语音交互

OpenAI正在准备下一代音频模型GPT-Bidi-1，计划对ChatGPT的语音模式进行升级。该模型采用双向架构，改变了过去AI语音交互只能单向轮流说话的限制。系统可以同时聆听和表达，实时捕捉用户的插话或打断，并动态调整回复内容，避免对话卡顿。

代码痕迹显示，OpenAI已在网页端和移动端为这一功能铺设基础。上线后，新模式将与现有的高级语音模式并行，用户可以在界面中切换到Bidi选项。语音端首次引入高、中、即时三种智力与速度分级，允许用户根据具体任务在回答深度和响应速度之间做出权衡。

这次迭代不只是音质或语调的调整。OpenAI的文本大模型已经迭代至推理能力更强的GPT-5.5世代，语音大模型的发展相对滞后，多模态体验因此出现断层。GPT-Bidi-1的推出有望补齐这一推理能力差距。OpenAI将语音视为下一代AI的核心入口，这也为后续布局语音优先的硬件设备及企业级语音支持工具奠定了技术基础。

CB科技站

OpenAI被曝筹备发布新一代双向语音模型GPT-Bidi-1

OpenAI筹备推出GPT-Bidi-1双向音频模型，升级ChatGPT语音交互

与本文相关的文章