OpenAI发布三款Realtime API语音模型，将GPT-5级别的推理能力引入实时语音交互

OpenAI发布了三款可通过Realtime API使用的新型语音模型，分别是GPT-Realtime-2、GPT-Realtime-Translate与GPT-Realtime-Whisper，帮助开发者构建支持实时对话、翻译与语音转文字的语音应用。其中，GPT-Realtime-2是OpenAI宣称具备GPT-5级别推理能力的语音模型，主要用于让语音助手在对话中理解用户意图、保持上下文连贯，并在需要时调用工具完成任务。

GPT-Realtime-2针对实时交互新增多项功能，开发者可启用Preambles功能，使模型在主回复前先用简短语句告知用户正在处理请求，例如“我查一下”或“请稍等，我确认一下”，避免语音服务在等待工具响应时出现沉默中断。模型还支持同时调用多个工具，例如查询日历或检索信息，并能通过语音说明当前正在执行的操作。OpenAI表示，这一代模型在专有名词、医疗术语等专业词汇的识别，以及对不同语气的把握上均有提升，长对话的上下文长度也从3.2万扩展至12.8万。

根据OpenAI公布的模型评测结果，GPT-Realtime-2在Big Bench Audio语音智能评测中，以高推理等级取得96.6%的准确率，高于GPT-Realtime-1.5的81.4%；在Audio MultiChallenge多轮语音指令遵循评测中，GPT-Realtime-2以xhigh推理等级取得48.5%的平均通过率，高于GPT-Realtime-1.5的34.7%。

另外两款模型分别负责翻译与语音转文字任务。GPT-Realtime-Translate支持70多种输入语言，可翻译为13种输出语言，适用于客服、跨境销售、教育、活动、媒体与内容创作平台。GPT-Realtime-Whisper是流式语音转文字模型，可在用户说话的同时实时生成文字记录，适用于实时字幕、会议纪要、课堂录音、广播与客服后续整理等场景。

三款模型现已可通过Realtime API调用。价格方面，GPT-Realtime-2的音频输入价格为每100万个音频输入Token 32美元，缓存输入Token为0.40美元，音频输出Token为64美元；GPT-Realtime-Translate为每分钟0.034美元；GPT-Realtime-Whisper为每分钟0.017美元。OpenAI还表示，Realtime API内置多层安全防护机制，并在会话中使用主动分类器。开发者应明确告知终端用户他们正在与AI交互，除非使用场景已能明确识别为AI服务。

CB科技站

OpenAI发布三款Realtime API语音模型，将GPT-5级别的推理能力引入实时语音交互

与本文相关的文章