最新消息:关注人工智能 AI赋能新媒体运营

OpenAI十二天开发者系列功能大剖析,o1推理终于推出API了

科技智能 admin 浏览 评论

ChatGPT跨入第三方应用软件生态圈,让ChatGPT的人机互动範围走出OpenAI的产品线,让真人和更多第三方应用软件进行人机协作。(图片来源/OpenAI)

对分散在全球200国的200万名OpenAI开发者而言,第九天的发表会是十二天发表会中,最重要的一场,OpenAI平台产品负责人Olivier Godement发表了一系列的开发者功能,最重要的一项就是新一代推理模型o1的API。另外还有两项将会大大影响GAI应用程序开发的关键功能,一项是新的模型微调方法称为「偏好微调」(Preference Fine Tuning),另一项则是即时声音串流Realtime API的大升级,另外还有一些较小但也影响深远的发表,像是推出了Go和Java版的Open AI SDK套件。

第9天:开发者终于可以用API使用新一代推理模型o1

o1推理模型释出的API中,包括了函式呼叫、结构化输出、开发者讯息等新功能,其中开发者讯息是原本系统讯息功能的替代版本,另外也推出了新的模型参数Reasoning effort,这是用来控制o1的思考时间长短。简单问题可以用短一点的时间思考,来节省算力和成本,等到複杂问题才增加更多算力来思考。o1也发表了视觉输入API,可输入图片到o1模型来分析了,「视觉输入API是许多製造业和科学家最想增加的功能。」 Olivier Godement补充。

OpenAI也用Playground开发试验工具,来展示如使用o1来发现税单文件上的错误,他扫描了一份2023所得税报税税单上传,要求o1检查填错的内容。模型也找出了一个拼字错误,以及另一个两页资料不一致的问题,这得靠视觉理解才能发现的错误。在这项展示中,工程师内建了三个所得税计算函式,函式需要提供详细的描述,才能让模型知道如何使使用这个函式,作为模型判断要不要用的依据。就可以要求模型试算,2024年收入改变时,新的税额是多少。

模型回答的内容也可以输出成结构化的JSON格式,开发者可以先输入一个JSON架构档,让o1模型参考这个架构,来输出百分之百符合的JSON结果,方便来进行另一段程序的处理。

正式版o1的函式呼叫正确性,也比GPT-4o高了许多,根据OpenAI的测试GPT-4o呼叫到正确函式的比例不到90%,但o1模型正式版的正确率达到了95%,包括呼叫了正确的函式,以及没有呼叫错误不该使用的函式。而在JSON结果输出的正确性上,GPT-4o输出结果可以达到95%的正确性, o1可以达到几乎100%的正确性,几乎符合开发者的JSON规範要求。

(图片来源/OpenAI)

在LLM常用的软件开发评比LiveBench分数,统计到2025年1月底,o1正式版是名列第一的模型,平均总分达到75.67之高,除了推理分数,在程序码撰写分数和数学分数都高于其他主流模型,也比o1预览版的54.79分,提高了不少,只有在资料分析分数、语言支援,IF判断分数上,略输几名。

新版模型效率上也有优化,o1思考需要的Token数量,也比o1预览版减少了60%,不只可以大幅加快反应速度,也可以降低使用模型的成本。不过,目前o1 Pro版还没有支援API,Olivier Godement预告,他们正在努力中,也会尽快支援。

在第9天还有一项特别发表的新功能,就是OpenAI的即时语音对话服务RealTime API开始支援开源的网页即时通讯技术Web RTC。这是一项用来处理透过网际网路传输的複杂内容交换的技术。常见的网际网路视讯会议,低延迟串流都可以使用Web RTC来完成。

旧版Realtime API採取的是服务器对服务器端的对接,主要用于AP后端的整合,但在会第9天发表中,新增加了对Web RTC的支援,最大的差别,新能力是用户端AP的连线API,意味着开发者可以在前端Web应用中,直接嵌入Realtime API的程序码,就能让企业自家App具有ChatGPT的进阶语音能力。

Olivier Godement强调,有了Web RTC支援,要打造一个具有ChatGPT视讯功能的网页App非常容易。开发者只需要做三件事,第一,先在网页程序上建立一个使用者与Realtime API的一对一连结(Peer Connection),让Realtime API生成的任何语音,可以直接回送到使用者端接收。第二,则是要截取设备的麦克风声音,送到Realtime API。最后一项是,建立一个WebRTC的Offer和Answer连线呼叫,这是一个多媒体资料的交换机制,WebRTC可以自动处理技术细节都,不用开发者自己动手,透过本地端https的post发送机制就能做到。

根据OpenAI的展示,这三个步骤的JavaScript程序码,只需要12行程序就能做到,若是用WebSocket网路协定来达到同样的功能,大概需要至少200到250行程序才能完成。OpenAI也释出了这段程序码,开发者只要将API金钥换成个人金钥就可以使用。

OpenAI工程师还展示了一项特别的Realtime API应用,在驯鹿玩偶上,安装一个不到5分钱硬币大小的音讯处理晶片,就可以让这个玩偶具备ChatGPT进阶语音对话能力,与真人对话。

这意味着,可以将ChatGPT真人语音对话能力,放到穿戴式装置中,智慧居家环境中的低阶监视器,低阶麦克风设备等,来打造一个具有真人流畅对话能力的情境感知助手。RealTime API增加WebRTC技术支援后,大大降低了语音助手设备的开发门槛和成本,也更容易在不同环境,办公室、工厂、车辆,只要有无线网路和可连结Realtime API的端点装置即可。

随着Realtime API升级,OpenAI也将GPT-4o的音讯Token价格降低了60%,而低阶的4o-mini模型也可以支援Realtime API,价格只有4o模型的十分之一。

OpenAI工程师展示了一项特别的Realtime API应用,在驯鹿玩偶上,安装一个不到5分钱硬币大小的音讯处理晶片,就可以让玩偶具备ChatGPT进阶语音对话能力。这意味着,可以将ChatGPT真人语音对话能力,放到穿戴式装置或智慧居家设备,来打造一个具有真人流畅对话能力的情境感知助手。(图片来源/OpenAI)

模型客製化需求是开发者最大宗的需求之一,OpenAI也增加了一项新的模型微调机制,偏好微调preference fine tuning。这种微调功能,使用了一项使用直接偏好优化技术(Direct Preference Optimization),类似增强式学校,但是不是透过奖励分数来增强。微软Azure AI将这项功能命名为 直接偏好优化(Direct Preference Optimization,简称DPO)而非偏好微调。

目前OpenAI提供监督式微调(Supervise Fine Tuning)和新推出的增强式微调(Reinforcement Fine Tuning)。多数人目前用的是监督式微调,这种微调,要提供正确的一问一答,输入与输出的正确对应样本资料,来训练模型。

但是偏好微调用的训练资料不一样,一个问题,要提供两个一组的回答,一个回答是想要达到的答案,另一个回答是不想要生成的答案。偏好微调训练过程,会分辨和学会这两种答案的差异,来提供模型生成结果的客製化。

这些差异像是回应格式,回答风格,甚至是像是生成摘要的特质要偏向有用还是要有创意等。也就是说,这种偏好微调特别适合用于写作、内容创作类的客製化,可以用来强化想要的生成文章风格或格式,减少产生不想要的形式。尤其,企业文件有一定的格式和规格,这种偏好微调,就特别适合用这种微调模式。

偏好微调可以跟原本的监督式微调搭配,让模型生成的答案更準确,回答内容的形式也更符合企业的偏好。偏好微调方式也有新的超参数beta可调整,可以用来调整回答内容的发散程度。

微软Azure AI去年底先从 GPT-4o-2024-08-06这版本,开始支援DPO公开预览版功能,预计下一个支援的模型是 GPT-4o-mini-2024-07-18版本。

有一家金融AI新创RoboAI,就有一个特别的偏好微调用法,用来调整使用者输入的问题,让原本模糊的真人提问问题,变成更清楚的问题,再送到对话机器人中让AI助手回答,来得到更相关的答案。

用原本的监督式微调只能提高75%的回答正确性,改用偏好微调后,正确性提高到了80%,凸显了新的微调作法,确实有成效。

另外OpenAI SDK的支援语言,也新增加了Go和Java,原本只有支援Python,Node,.NET,现在有多了两种语言,这两种语言都是传统大型应用系统惯用的开发语言,尤其是Java,这也意味着Open AI更容易和传统大型应用系统整合,将Open AI的GAI技术整合到更多类型的企业应用系统中。

第10和11天,扩大触及领域,桌面版ChatGPT能和第三方AP协作

第10天和第11天的发表重点,都是OpenAI跨入了新的领域,先来看第10天的发表,OpenAI发表了一个电话服务1-800-ChatGPT号码,也能用WhatsApp来拨打这个号码,拨通后,就可以和ChatGPT对话,就像是使用Web版或行动App版的进阶语音功能一样的对话。

(图片来源/OpenAI)

这一步让OpenAI的产品,跨出了网际网路技术领域,进入传统电话服务体系,不用安装App,使用传统电话设备,例如市内电话,也能打给ChatGPT,再加上ChatGPT在十二天发表中也增加了网路搜寻能力,两项新功能的结合,可以让不擅长手机App操作的老爷爷,只要拿起电话打到这支电话号码,就能询问ChatGPT来帮忙查询餐厅,天气等各种网路资讯,ChatGPT也会透过电话直接告诉老爷爷,让ChatGPT的能力扩大到更多不谙技术的族群。

延续着第10天,扩大ChatGPT触及领域的发表策略,在第11天的发表,则是让ChatGPT跨入了第三应用软件的生态圈整合,这让ChatGPT的人机互动範围,走出了OpenAI的产品线,可以让真人和更多第三方应用软件进行人机协作。目前先支援MacOS,很快也会推出Windows作业系统的支援版本。

像是Apple Notes、Notion、TextEdit、Quip等,也支援多款主流软件开发工具系列,像是 Xcode、VS Code系列(包括Code、Code Insiders、VSCodium、Cursor、Windsurf),还有 Jetbrains系列(包括了 Android Studio、IntelliJ、PyCharm、WebStorm、PHPStorm、CLion、Rider、RubyMine、AppCode、GoLand、DataGrip),这涵盖了大多数人常用的软件开发工具。

因为这些应用程序传送到ChatGPT的内容,都会成为ChatGPT帐户的对话之一,也会遵循OpenAI的使用条款,一般使用者资料可能会OpenAI用来训练模型,企业级订阅服务才预设排除使用。使用ChatGPT与第三方应用的整合时,得留意这个问题,或者调整预设为不用于训练,或使用临时性对话(Temporary Chat)功能,就不会用于训练。

ChatGPT可以让真人和更多第三方应用软件进行人机协作,直接读取多款应用程序在萤幕上秀出的内容,例如Xcode的程序码,Notion的文件或是Warp、iTerm等终端机模拟器最新200行的指令。目前先支援MacOS,很快也会推出Windows作业系统的支援版本。(图片来源/OpenAI)

最后一天,打败16万真人开发者的新一代o3推理模型亮相

最后一天的发表会上,再次由Sam Altman亲自揭露了新一代推理模型o3,这款模型,不论在数学解题、科学理解、程序码开发等标竿测试中,再次大幅超确了o1。

新版o3最大特色是程序设计能力的大幅跃进,根据OpenAI揭露的资料,在软件工程标竿测试SWE-bench Verified测试上,o3达到71.7%的分数,这个测试是针对2千多个真实Python函式库问题修改请求,o3可以解决了其中71.7%的问题,这也反映出o3解决实际不同软件开发领域问题的能力。

根据OpenAI发表会揭露的数据,o3的分数远高于o1的48.9%,多解决了近2成的开发问题,这个分数也高于竞争对手产品,例如Google最新的Gemini 2.0 Flash可以解决51.8%的问题,而Claude Sonnet 3.5也差不多只解决了50.8%的问题。虽然这项测试主要针对Python,而无法完全类推到其他语言也有同样的能力水準,但是可以说,o3对这些真实程序码的修补能力,已经达到有经验Python开发者的水準。

OpenAI在十二天马拉松线上发表会的最后一天压轴,发表了新一代推理模型o3,在号称全球最难的程序竞赛平台Codeforces的解题分数上,o3模型的得分(Competition code)达到2,727高分,相当于2024年12月底排名175名的成绩,在16万8千多人参赛开发者中,超越了99.9%的真人开发者。(图片来源/OpenAI)

从另一个测试,更能够反映出o3与真人软件开发者的比较,在号称全球最难的程序竞赛平台Codeforces的解题分数上,o3模型的得分(Competition code)达到2,727高分,相当于2024年12月底排名175名的成绩,在16万8 千多人参赛开发者中,超越了99.9%的真人开发者。OpenAI在今年初已经释出o3-mini版模型,也宣布2025将部署完整的o3模型。目前正透过安全测试计画,招募资安人员来验证o3的安全性。

o3-mini模型API释出后,也会支援Reasoning Effort新参数,可以设定三种模式来调整o1思考时间长短。例如将Reasoning Effort设定为高,使用最长的时间推理,可以让o3-mini在Codeforces程序竞赛的分数,从原本的1650分提高到2073分数,可以达到前3千名的高分,超过16万真人开发者。开发者很快就可以拿到o3-mini的API来试用。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论