OpenAI测试ChatGPT音频新功能，代号“奏鸣曲”

OpenAI悄然布局音频革命：“奏鸣曲”项目浮出水面

最近几天，技术圈内悄然流传一条消息：OpenAI 正在秘密测试一个代号为“Sonata”（奏鸣曲）的新功能。这不是普通的功能更新，而是一次可能重塑人机音频交互方式的尝试。多个技术观察者发现，OpenAI 已经在服务器上启用了 sonata.openai.com 以及 sonata-api.openai.com 等新子域名——这种操作通常意味着内部测试已进入稳定阶段，离公开不远了。

“Sonata”这个名字耐人寻味。在古典音乐中，奏鸣曲是结构严谨、情感丰富的多乐章作品。而OpenAI过去命名项目时，从“DALL·E”到“Sora”，从不直白，却总藏着深意。这次，它是否意味着AI将不再只是“听懂”你的话，而是能“演奏”你的声音、理解情绪、甚至生成有节奏感的语音内容？

有开发者在GitHub上发现，部分内部测试API的响应结构中出现了“audio_emotion”和“prosody_control”字段——这暗示系统可能正在学习如何控制语音的语调、停顿、重音，让AI的回应不再机械，而是像真人一样富有表现力。更令人惊讶的是，有内测用户反馈，当他们用哼唱的方式输入一段旋律时，系统竟能识别出大致的音高与节奏，并尝试用AI生成对应的钢琴伴奏。

不只是音乐：语音听写迎来质变

与此同时，ChatGPT 的语音功能也在悄悄升级。上周，iOS 和 Android 应用更新后，用户发现语音输入的准确率明显提升，尤其在嘈杂环境、口音较重或语速较快的情况下，识别错误率下降了近40%。据知情人士透露，这一优化并非单纯依赖模型升级，而是引入了新的音频预处理引擎，专门针对人类自然说话的“不完美”进行建模——比如吞音、重复、语气词，现在AI都能“自动补全”。

更实用的是，语音转文字后，系统能自动标注发言者身份（在多轮对话中），甚至区分“提问”“感叹”“犹豫”等语气类型。这意味着，未来你对着ChatGPT说：“呃……我觉得这个方案有点风险，但也不排除可行……”它不会再傻乎乎地只记下“这个方案可行”，而是能理解你语气里的犹豫，并主动追问：“你具体担心哪方面？”

聊天记录也能“查来源”了

如果你曾为翻找几小时前的对话而头疼，这次更新会让你松一口气。ChatGPT 新上线的“聊天记录引用”功能，允许用户点击任意一段回复，查看该内容的上下文来源——比如：“该建议基于您在3月12日提到的‘预算限制’和‘团队规模’”。

这看似是小功能，实则解决了AI对话中最致命的痛点：信息断层。过去，AI总像一个健忘的助手，你刚说“上次你说过……”，它就懵了。现在，它能像人类一样“记得前情”，甚至能帮你回溯关键决策节点，特别适合用于工作复盘、项目讨论或写作构思。

OpenAI的野心，藏在声音里

把“奏鸣曲”、语音优化、引用功能三者放在一起看，OpenAI 的战略越来越清晰：它不再满足于“回答问题”，而是想成为你生活中最懂你的“声音伙伴”。

想象一下：你深夜写稿，AI用舒缓的钢琴背景音陪你；你开车时口述想法，它不仅能听清，还能在你停顿时自然接话；你和团队开完会，它自动生成带情绪标记的会议纪要，标出“张经理明显反对”“李工语气兴奋”——这不是科幻，正在变成现实。

目前，“Sonata”尚未正式发布，但已有开发者在Reddit和Hacker News上分享内测截图。如果你是创作者、播客主、设计师或任何依赖语音表达的人，这可能是今年最值得期待的AI突破之一。OpenAI 没有喊口号，只是悄悄把声音，变成了对话的另一种语言。

Sonata项目概念图：AI生成的音乐波形与语音波形交织

CB科技站

OpenAI测试ChatGPT音频新功能，代号“奏鸣曲”

OpenAI悄然布局音频革命：“奏鸣曲”项目浮出水面

不只是音乐：语音听写迎来质变

聊天记录也能“查来源”了

OpenAI的野心，藏在声音里

与本文相关的文章