OpenAI发布三款实时语音模型，搭载GPT-5级推理能力

OpenAI 推出全新实时语音模型，语音交互迎来“真对话”时代

OpenAI 刚刚发布三款全新的实时语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，全都接入了全新的 Realtime API。这不是一次普通的功能升级，而是让AI语音助手第一次真正“听懂人话”——能听你说话时的停顿、能接住你突然的打断、能跟上你的思路，而不是等你说完一句才反应过来。

最引人注目的是 GPT-Realtime-2。它不是简单地把语音转成文字再回答，而是像真人一样边听边思考。你说话中途改口、插话、甚至说一半卡住，它都能无缝接住。测试视频里，有人边走边说：“我想订明天去上海的票，啊不对，是后天……”——GPT-Realtime-2 没有重复前半句，直接按“后天”重新处理。这种能力在会议、客服、车载语音等场景里，体验感直接拉满。它还能调用日历、查天气、订餐厅，不是“帮你查”，而是“和你一起做”。开发者已经能在应用里嵌入这种能力，比如让智能音箱从“播放周杰伦”变成“帮我找一个适合今晚朋友聚会的歌单，别太吵，最好有《晴天》”。

价格方面，GPT-Realtime-2 的输入是每百万 Token 32 美元（约218元），输出64美元（约436元）。但如果你只是让系统缓存一段语音做背景分析，成本低到只有0.4美元——这意味着很多轻量级应用也能用得起，比如教育类App录下学生朗读，AI实时反馈发音，而不必每句话都按高价计费。

翻译不再卡顿，跨国会议终于能“零延迟”

如果你经常参加线上跨国会议，一定受够过翻译延迟、断句错乱、人说完了字幕还没出来。GPT-Realtime-Translate 直接解决了这个问题。它支持70种语言输入、13种语言输出，翻译速度几乎和说话同步。谷歌翻译和DeepL在实时场景下平均有1.5到3秒延迟，而这款模型实测延迟控制在300毫秒内——比人眨眼还快。在一场测试中，一位德国工程师用德语讲技术方案，系统实时输出英文字幕，台下美国团队边听边点头，没人觉得“这是AI在翻译”。

收费也很干脆：每分钟0.034美元，约合人民币0.24元。一场两小时的国际会议，翻译费用不到3块钱。不少企业已经在内部测试，准备替换掉传统翻译设备，尤其是跨境电商、跨国研发团队和海外客服中心。

字幕不再“慢半拍”，GPT-Realtime-Whisper 让直播和会议秒出文字

你有没有试过看直播，字幕比说话慢三秒？或者开完会，等10分钟才拿到会议纪要？GPT-Realtime-Whisper 就是为这个痛点设计的。它专注做一件事：把声音变成文字，越快越好。实测中，它能在你说完一个词的0.5秒内，就把文字推送到屏幕。这不仅适合直播、线上课堂、会议记录，连医院的医生查房录音、法庭笔录、甚至外卖骑手的语音订单系统，都能用它提升效率。

它的价格更低，每分钟仅0.017美元（约0.12元）。有开发者已经用它做了个小程序：打开手机，对着说话，文字立刻出现在屏幕上，还能自动分段、标点、加粗关键词。有人拿来给听力障碍朋友用，也有人用在短视频配音——录完语音，字幕秒出，省掉手动打字的时间。

这不是未来，是现在就能用的技术

OpenAI 没有搞什么“GPT-5”的噱头，而是把技术藏进了一个个真实的使用场景里。你不需要懂AI术语，就能感受到变化：现在和智能音箱说话，它不再像机器人，更像一个能听懂你情绪、接得住你话茬的伙伴。

目前，这些模型已向开发者开放，部分企业客户（如Zoom、Slack、Notion）正在集成测试。预计未来三个月，你会在越来越多的App里看到“实时语音”入口——不是“点击说话”，而是“开口就有效果”。

语音交互的下一站，不是更聪明的AI，而是更自然的对话。OpenAI 这次，真的把“对话”还给了人。

CB科技站

OpenAI发布三款实时语音模型，搭载GPT-5级推理能力

OpenAI 推出全新实时语音模型，语音交互迎来“真对话”时代

翻译不再卡顿，跨国会议终于能“零延迟”

字幕不再“慢半拍”，GPT-Realtime-Whisper 让直播和会议秒出文字

这不是未来，是现在就能用的技术

与本文相关的文章