
OpenAI宣布ChatGPT进阶语音模式将逐步开放给ChatGPT Plus用户。(图片来源/OpenAI)
OpenAI接连推出新服务,本周再公布二项新服务,分别是GPT-4o 64K长输出模型以及可以逼真人声对话的ChatGPT进阶语音模式(Voice Mode)功能。
本周稍早OpenAI推出实验性版本的GPT-4o长输出(long output)模型。这个模型下,每次提示最多可输出64K token的回应,让开发人员可以实验具有更长completion(即ChatGPT提供完整的回答)的新应用场景。64K token是5月上线的GPT-4o最大输出词元(4K token)的16倍。
GPT-4o长输出模型目前以Alpha测试开放使用,模型名称为gpt-4o-64k-output-alpha。虽然是测试版,但OpenAI表示,就推论观点而言,更长completion意谓更高成本,因此输入费用为6.00美元/100万token,输出费用为18美元/100万token。
至于如何加入试用,根据OpenAI讨论区一名用户的说法,开发人员可以透过API发送https://api.openai.com/v1/models/gpt-4o-64k-output-alpha呼叫,如果有回传结果,表示用户有权加入测试。
第二项服务则是能以逼真人声和用户对话的ChatGPT进阶语音模式(Voice Mode),向一小部分用户开放。OpenAI说明进阶语音模式比5月向世人展示时,能执行更即时、更自然的互动,允许用户打岔,还能感受并回应用户情绪。
5月OpenAI公布以多模态模型GPT4o为基础的GPT 4.0时,展示令人惊豔的对话能力。GPT 4.0语音模式设计上可提供5种声音,预定6月底上线,但其中一个名为Sky的声音却被爆出和美国女演员Scarlett Johansson极为相似,她本人也发声抗议OpenAI未经过其同意使用其声音。OpenAI虽然否认用了Johansson的声音,但随后仍然移除Sky,并延后一个月推出语音模式。该公司声称是为了「强化模型侦测和拒绝某些内容的能力」。
ChatGPT进阶语音模式最新上线的声音是除了Sky以外的4种。OpenAI表示,这些预设声音是以声优的声音为基础製成,并且让ChatGPT无法冒充他人,包括个人或公众人物的声音,也会禁止这些预设声音以外的声音输入。
长输出模型及进阶语音模式是继GPT-4o mini模型及相关微调工具后,OpenAI推出GPT-4o的最新服务。
这波开放中,OpenAI仅允许特定用户透过Alpha测试计画使用ChatGPT进阶语音模式,该公司计画在未来几周内逐步开放给更多付费Plus方案用户,而在秋天开放所有Plus方案用户使用。