OpenAI发布三款实时语音模型：对话推理、即时翻译与语音转录

OpenAI 推出三款全新实时语音模型，开发者可免费试用

就在本周，OpenAI 正式发布了三款面向实时语音交互的新模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这不是一次普通的功能升级，而是真正为语音应用“提速”的一次技术跃迁。目前，这三款模型已开放接入 Realtime API，开发者可立即在 OpenAI Playground 免费测试，无需等待审核或申请权限。

OpenAI (图片来源：AI合成)

GPT-Realtime-2：像真人一样“边想边说”的语音助手

过去，语音助手要么等你说完再回应，要么回答生硬、逻辑断裂。GPT-Realtime-2 的出现改变了这一点。它不是简单地“听完了再说”，而是能像人类对话那样，在你说话中途就做出反应——你刚说“我想订一张去……”，它就能预判你可能是要订机票，顺势问：“目的地是哪里？”

测试中，用户在对话中突然打断、纠正说法，或临时加需求（比如“等等，别订经济舱，改商务舱”），模型都能无缝衔接，无需重启对话。它还支持调用外部工具，比如查天气、查餐厅、下单打车，全程语音交互，无需切换App。

目前，GPT-Realtime-2 已在部分语音客服和智能车载系统中进行内测，反馈显示其响应延迟低于 300 毫秒，接近人类对话的自然节奏。定价方面，输入每百万Token 32 美元，输出每百万Token 64 美元——虽然单价不低，但相比传统方案，它能减少 40% 以上的服务器调用次数，长期使用反而更省成本。

GPT-Realtime-Translate：真正能跟上语速的实时翻译

会议、直播、跨国通话……语言障碍依然是现实中的大麻烦。GPT-Realtime-Translate 的目标很简单：让你感觉不到翻译的存在。

它支持 70 多种语言输入、13 种语言输出，包括越南语、泰语、阿拉伯语等此前常被忽略的小语种。关键在于“语速同步”——它能在说话者每说 1.5 秒后就输出翻译结果，延迟控制在 800 毫秒以内，比谷歌翻译和微软翻译快近一倍。

在一场实测的英文–中文会议中，发言人语速达到每分钟 180 词，模型依然能保持准确断句，不漏词、不误译专有名词。更贴心的是，它能自动识别口音和行业术语（比如医疗、金融），并支持“双语字幕”模式，让听者同时看到原文和译文。

定价为每分钟 0.034 美元，换算下来，一场 1 小时的国际会议翻译费用不到 2 美元。对于中小企业、教育机构或海外直播主来说，这几乎是“白菜价”。

GPT-Realtime-Whisper：比字幕软件更快的语音转文字

如果你用过会议记录工具，一定被“录完等半天才出字幕”折磨过。GPT-Realtime-Whisper 直接解决了这个问题——它能在你开口的同时，逐字输出文字，延迟低至 200 毫秒。

实测中，它在嘈杂咖啡馆、多人讨论、方言口音等复杂环境下，准确率仍保持在 94% 以上。支持中英文混杂、专业术语（如“Transformer”“LLM”）、甚至语气词（“呃”“那个”）的智能过滤，输出干净、可读的文本。

目前，它已被多个视频平台接入，用于直播自动生成字幕。B站、YouTube 上的部分创作者已开始用它做实时中英双语字幕，无需人工干预。在教育领域，教师用它做课堂实录，学生可边听边看文字，复习效率大幅提升。

定价仅每分钟 0.017 美元，是目前市面上最便宜的高精度实时转写方案。OpenAI 还开放了“流式输出”接口，开发者可直接接入 WebRTC、Zoom、Teams 等平台，30 分钟就能集成。

现在就能用，无需排队

这三款模型均已上线 OpenAI Realtime API，开发者无需申请白名单，注册后即可在 Playground 直接试用。官方还提供了 Python、JavaScript、Flutter 的快速集成示例，GitHub 上的开源模板已更新。

值得注意的是，OpenAI 暂时未对免费用户设置使用上限——这意味着个人开发者、学生、小团队完全可以拿它做原型、做产品验证，无需担心额度问题。

如果你正在开发语音助手、在线教育工具、跨境直播平台，或者只是想给自己的 App 加个“能听懂人话”的功能，这三款模型，可能是你今年最值得尝试的工具。

别等了——打开 OpenAI Playground，说一句话，看看它们能怎么回应你。

CB科技站