最新消息:关注人工智能 AI赋能新媒体运营

OpenAI发布三款实时语音模型,搭载GPT-5级推理能力

科技资讯 admin 浏览

OpenAI 推出全新实时语音模型,语音交互迎来“真对话”时代

OpenAI 刚刚发布三款全新的实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,全都接入了全新的 Realtime API。这不是一次普通的功能升级,而是让AI语音助手第一次真正“听懂人话”——能听你说话时的停顿、能接住你突然的打断、能跟上你的思路,而不是等你说完一句才反应过来。

最引人注目的是 GPT-Realtime-2。它不是简单地把语音转成文字再回答,而是像真人一样边听边思考。你说话中途改口、插话、甚至说一半卡住,它都能无缝接住。测试视频里,有人边走边说:“我想订明天去上海的票,啊不对,是后天……”——GPT-Realtime-2 没有重复前半句,直接按“后天”重新处理。这种能力在会议、客服、车载语音等场景里,体验感直接拉满。它还能调用日历、查天气、订餐厅,不是“帮你查”,而是“和你一起做”。开发者已经能在应用里嵌入这种能力,比如让智能音箱从“播放周杰伦”变成“帮我找一个适合今晚朋友聚会的歌单,别太吵,最好有《晴天》”。

价格方面,GPT-Realtime-2 的输入是每百万 Token 32 美元(约218元),输出64美元(约436元)。但如果你只是让系统缓存一段语音做背景分析,成本低到只有0.4美元——这意味着很多轻量级应用也能用得起,比如教育类App录下学生朗读,AI实时反馈发音,而不必每句话都按高价计费。

翻译不再卡顿,跨国会议终于能“零延迟”

如果你经常参加线上跨国会议,一定受够过翻译延迟、断句错乱、人说完了字幕还没出来。GPT-Realtime-Translate 直接解决了这个问题。它支持70种语言输入、13种语言输出,翻译速度几乎和说话同步。谷歌翻译和DeepL在实时场景下平均有1.5到3秒延迟,而这款模型实测延迟控制在300毫秒内——比人眨眼还快。在一场测试中,一位德国工程师用德语讲技术方案,系统实时输出英文字幕,台下美国团队边听边点头,没人觉得“这是AI在翻译”。

收费也很干脆:每分钟0.034美元,约合人民币0.24元。一场两小时的国际会议,翻译费用不到3块钱。不少企业已经在内部测试,准备替换掉传统翻译设备,尤其是跨境电商、跨国研发团队和海外客服中心。

字幕不再“慢半拍”,GPT-Realtime-Whisper 让直播和会议秒出文字

你有没有试过看直播,字幕比说话慢三秒?或者开完会,等10分钟才拿到会议纪要?GPT-Realtime-Whisper 就是为这个痛点设计的。它专注做一件事:把声音变成文字,越快越好。实测中,它能在你说完一个词的0.5秒内,就把文字推送到屏幕。这不仅适合直播、线上课堂、会议记录,连医院的医生查房录音、法庭笔录、甚至外卖骑手的语音订单系统,都能用它提升效率。

它的价格更低,每分钟仅0.017美元(约0.12元)。有开发者已经用它做了个小程序:打开手机,对着说话,文字立刻出现在屏幕上,还能自动分段、标点、加粗关键词。有人拿来给听力障碍朋友用,也有人用在短视频配音——录完语音,字幕秒出,省掉手动打字的时间。

这不是未来,是现在就能用的技术

OpenAI 没有搞什么“GPT-5”的噱头,而是把技术藏进了一个个真实的使用场景里。你不需要懂AI术语,就能感受到变化:现在和智能音箱说话,它不再像机器人,更像一个能听懂你情绪、接得住你话茬的伙伴。

目前,这些模型已向开发者开放,部分企业客户(如Zoom、Slack、Notion)正在集成测试。预计未来三个月,你会在越来越多的App里看到“实时语音”入口——不是“点击说话”,而是“开口就有效果”。

语音交互的下一站,不是更聪明的AI,而是更自然的对话。OpenAI 这次,真的把“对话”还给了人。