
OpenAI宣布Realtime API正式推出,并发布新一代语音对语音模型gpt-realtime,主打以单一模型直接处理与产生音讯,取代传统由语音转文字、文字再转回语音的流程。官方表示,这种架构可降低延迟、提升对话自然度,并在稳定性上符合企业导入需求,定价也同步调整,音讯输入每百万Token 32美元、音讯输出每百万Token 64美元,与先前的预览版本相比下修约20%,而快取输入则维持每百万Token 0.40美元,方便长对话控制成本。
Gpt-realtime语音模型针对客服、助理与教育等常见应用场景进行调校,在语音表现与理解能力较之前版本有明显提升。模型能依指示改变语速与语气,甚至在同一句中切换语言,对于需要準确重複电话号码或辨识非语言讯号如笑声的情境也更强健。
功能呼叫能力也得到强化,不仅能在正确时机呼叫正确工具,还能支援非同步处理,避免等待回应时中断对话流程。根据OpenAI内部测试,模型在Big Bench Audio、MultiChallenge Audio与ComplexFuncBench Audio等基準测试的準确率,比起2024年底的预览版有明显提升。
在API功能方面,Realtime API新增影像输入,开发者可在对话中加入照片或截图,让模型理解画面内容或读取其中文字。此外,API支援远端MCP服务器,开发者只需在工作阶段设定服务器位置与授权,即可挂载工具并即时使用,不必再自行撰写整合程序。
OpenAI同时新增两个新声线Marin与Cedar,并更新既有声音的自然度因应不同场景需求。另一项重点是支援SIP(Session Initiation Protocol),让语音代理可直接连接公用电话网路或PBX系统,拓展至传统客服与电信应用。
OpenAI表示Realtime API内建多层防护与即时分类器,当对话中出现违规内容便会立即中止,并支援欧盟资料留存,符合企业隐私要求。API也提供更细緻的上下文控管机制,能设定智慧Token限制与多轮截断,协助降低长对话的计算资源消耗。