OpenAI发布了三款可通过Realtime API使用的新型语音模型,分别是GPT-Realtime-2、GPT-Realtime-Translate与GPT-Realtime-Whisper,帮助开发者构建支持实时对话、翻译与语音转文字的语音应用。其中,GPT-Realtime-2是OpenAI宣称具备GPT-5级别推理能力的语音模型,主要用于让语音助手在对话中理解用户意图、保持上下文连贯,并在需要时调用工具完成任务。
GPT-Realtime-2针对实时交互新增多项功能,开发者可启用Preambles功能,使模型在主回复前先用简短语句告知用户正在处理请求,例如“我查一下”或“请稍等,我确认一下”,避免语音服务在等待工具响应时出现沉默中断。模型还支持同时调用多个工具,例如查询日历或检索信息,并能通过语音说明当前正在执行的操作。OpenAI表示,这一代模型在专有名词、医疗术语等专业词汇的识别,以及对不同语气的把握上均有提升,长对话的上下文长度也从3.2万扩展至12.8万。
根据OpenAI公布的模型评测结果,GPT-Realtime-2在Big Bench Audio语音智能评测中,以高推理等级取得96.6%的准确率,高于GPT-Realtime-1.5的81.4%;在Audio MultiChallenge多轮语音指令遵循评测中,GPT-Realtime-2以xhigh推理等级取得48.5%的平均通过率,高于GPT-Realtime-1.5的34.7%。
另外两款模型分别负责翻译与语音转文字任务。GPT-Realtime-Translate支持70多种输入语言,可翻译为13种输出语言,适用于客服、跨境销售、教育、活动、媒体与内容创作平台。GPT-Realtime-Whisper是流式语音转文字模型,可在用户说话的同时实时生成文字记录,适用于实时字幕、会议纪要、课堂录音、广播与客服后续整理等场景。
三款模型现已可通过Realtime API调用。价格方面,GPT-Realtime-2的音频输入价格为每100万个音频输入Token 32美元,缓存输入Token为0.40美元,音频输出Token为64美元;GPT-Realtime-Translate为每分钟0.034美元;GPT-Realtime-Whisper为每分钟0.017美元。OpenAI还表示,Realtime API内置多层安全防护机制,并在会话中使用主动分类器。开发者应明确告知终端用户他们正在与AI交互,除非使用场景已能明确识别为AI服务。