ChatGPT语音功能升级：支持窗口内语音对话并同步显示图片与地图

ChatGPT 语音功能全面升级：对话中直接“开麦”，语音+视觉一气呵成

OpenAI 刚刚发布了一项颠覆性更新，彻底改变了 ChatGPT 的语音交互方式。现在，无论你是在手机 App 上通勤路上提问，还是在电脑网页端整理思路，都不再需要退出当前对话、跳转到独立语音界面——只需点击输入框旁那个熟悉的“声波”图标，语音模式即刻启动，全程无缝衔接。

ChatGPT 新语音交互界面示意图

这次升级最打动人的地方，是它真正做到了“说得出，看得见”。当你用语音问：“附近有什么好评高的咖啡馆？” ChatGPT 不仅会用自然的人声回答你，还会在对话窗口中同步弹出一张地图，标注出三家高评分店铺，甚至附上它们的招牌饮品照片——你不需要再一边听语音、一边手动翻找链接或截图。语音回复自动生成文字转录，错过的细节随时可回看，想复制地址？长按即可一键复制。

对于经常在通勤、做饭、开车时使用语音助手的用户来说，这项更新简直是“解放双手”的神操作。你不再需要在“听”和“看”之间反复切换，信息流自然融合，体验更接近真人对话——就像你问朋友一个问题，他一边回答，一边顺手掏出手机给你看地图和照片。

还能回退？个性化设置满足不同习惯

当然，不是所有人都喜欢“信息轰炸”。如果你更习惯过去那种专注语音、不被打扰的独立语音模式，OpenAI 也贴心地保留了切换入口。进入设置 → 语音偏好 → 选择“分离模式”，即可恢复到旧版全屏语音对话界面，视觉元素将被隐藏，专注听觉体验。

这一设计体现了 OpenAI 对用户行为的深刻理解：有人追求效率，有人注重沉浸，而这一次，他们把选择权，交还给了你。

不只是语音，是“多模态对话”的新起点

这不是一次简单的功能优化，而是 OpenAI 在“多模态交互”上的关键一步。早在去年，ChatGPT 就已支持上传图片、PDF、截图提问，如今语音回复也同步接入视觉反馈，意味着 AI 开始真正理解“对话”的完整语境——你问的是“这家店的提拉米苏好不好吃”，它就不只是回答“评价很好”，而是直接给你看那块蛋糕的特写图、用户评价截图，甚至推荐菜单上的其他爆款。

虽然目前还无法像 Google Gemini Live 那样对实时摄像头画面做动态标注（比如指着你家冰箱说“里面牛奶快过期了”），但这种“语音+图文即时联动”的模式，已经大幅提升了实用性。尤其在旅行规划、购物决策、学习辅导等场景中，信息密度和决策效率直接翻倍。

已全量推送，立即更新即可体验

目前，该功能已向全球所有移动端（iOS 和 Android）及网页版用户逐步推送。无需等待内测资格，也不用开通 Plus 订阅——只要是最新版 App 或刷新网页，就能立刻使用。

操作指南：

打开 ChatGPT App 或网页端，进入任意对话；
点击输入框左侧的“声波”图标（????）；
说完问题后，AI 会自动开始语音回复，同时图文信息同步浮现；
想暂停？点击暂停按钮；想重听？点击文字记录中的任意一句即可回放对应语音片段。

不少早期体验用户反馈：“现在用 ChatGPT 问路，感觉像有个懂地图、懂美食、还嘴皮子利索的朋友坐你旁边。” 这或许，就是未来人机交互的日常模样——不炫技，但真好用。

CB科技站

ChatGPT语音功能升级：支持窗口内语音对话并同步显示图片与地图

ChatGPT 语音功能全面升级：对话中直接“开麦”，语音+视觉一气呵成

还能回退？个性化设置满足不同习惯

不只是语音，是“多模态对话”的新起点

已全量推送，立即更新即可体验

与本文相关的文章