OpenAI 推出三款全新实时语音模型,开发者可免费试用
就在本周,OpenAI 正式发布了三款面向实时语音交互的新模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这不是一次普通的功能升级,而是真正为语音应用“提速”的一次技术跃迁。目前,这三款模型已开放接入 Realtime API,开发者可立即在 OpenAI Playground 免费测试,无需等待审核或申请权限。

GPT-Realtime-2:像真人一样“边想边说”的语音助手
过去,语音助手要么等你说完再回应,要么回答生硬、逻辑断裂。GPT-Realtime-2 的出现改变了这一点。它不是简单地“听完了再说”,而是能像人类对话那样,在你说话中途就做出反应——你刚说“我想订一张去……”,它就能预判你可能是要订机票,顺势问:“目的地是哪里?”
测试中,用户在对话中突然打断、纠正说法,或临时加需求(比如“等等,别订经济舱,改商务舱”),模型都能无缝衔接,无需重启对话。它还支持调用外部工具,比如查天气、查餐厅、下单打车,全程语音交互,无需切换App。
目前,GPT-Realtime-2 已在部分语音客服和智能车载系统中进行内测,反馈显示其响应延迟低于 300 毫秒,接近人类对话的自然节奏。定价方面,输入每百万Token 32 美元,输出每百万Token 64 美元——虽然单价不低,但相比传统方案,它能减少 40% 以上的服务器调用次数,长期使用反而更省成本。
GPT-Realtime-Translate:真正能跟上语速的实时翻译
会议、直播、跨国通话……语言障碍依然是现实中的大麻烦。GPT-Realtime-Translate 的目标很简单:让你感觉不到翻译的存在。
它支持 70 多种语言输入、13 种语言输出,包括越南语、泰语、阿拉伯语等此前常被忽略的小语种。关键在于“语速同步”——它能在说话者每说 1.5 秒后就输出翻译结果,延迟控制在 800 毫秒以内,比谷歌翻译和微软翻译快近一倍。
在一场实测的英文–中文会议中,发言人语速达到每分钟 180 词,模型依然能保持准确断句,不漏词、不误译专有名词。更贴心的是,它能自动识别口音和行业术语(比如医疗、金融),并支持“双语字幕”模式,让听者同时看到原文和译文。
定价为每分钟 0.034 美元,换算下来,一场 1 小时的国际会议翻译费用不到 2 美元。对于中小企业、教育机构或海外直播主来说,这几乎是“白菜价”。
GPT-Realtime-Whisper:比字幕软件更快的语音转文字
如果你用过会议记录工具,一定被“录完等半天才出字幕”折磨过。GPT-Realtime-Whisper 直接解决了这个问题——它能在你开口的同时,逐字输出文字,延迟低至 200 毫秒。
实测中,它在嘈杂咖啡馆、多人讨论、方言口音等复杂环境下,准确率仍保持在 94% 以上。支持中英文混杂、专业术语(如“Transformer”“LLM”)、甚至语气词(“呃”“那个”)的智能过滤,输出干净、可读的文本。
目前,它已被多个视频平台接入,用于直播自动生成字幕。B站、YouTube 上的部分创作者已开始用它做实时中英双语字幕,无需人工干预。在教育领域,教师用它做课堂实录,学生可边听边看文字,复习效率大幅提升。
定价仅每分钟 0.017 美元,是目前市面上最便宜的高精度实时转写方案。OpenAI 还开放了“流式输出”接口,开发者可直接接入 WebRTC、Zoom、Teams 等平台,30 分钟就能集成。
现在就能用,无需排队
这三款模型均已上线 OpenAI Realtime API,开发者无需申请白名单,注册后即可在 Playground 直接试用。官方还提供了 Python、JavaScript、Flutter 的快速集成示例,GitHub 上的开源模板已更新。
值得注意的是,OpenAI 暂时未对免费用户设置使用上限——这意味着个人开发者、学生、小团队完全可以拿它做原型、做产品验证,无需担心额度问题。
如果你正在开发语音助手、在线教育工具、跨境直播平台,或者只是想给自己的 App 加个“能听懂人话”的功能,这三款模型,可能是你今年最值得尝试的工具。
别等了——打开 OpenAI Playground,说一句话,看看它们能怎么回应你。