最新消息:关注人工智能 AI赋能新媒体运营

从十二天发表来看OpenAI的2025战略布局

科技智能 admin 浏览 评论

对OpenAI而言,影片生成服务Sora的战略意义在于,AI生成影片是通用人工智慧蓝图的重要一环,因为影片是AI学习的重要环境,可以让AI从中学到人类在真实世界中的行为。(图片来源/OpenAI)

在去年底的十二天发表会期间,OpenAI以新一代推理模型o1正式上线启用揭开序幕。执行长Sam Altman表示,OpenAI的模型技术,开始从通用型的LLM,转向具有複杂推理能力的新一代模型系列。

第一天:新一代推理模型o1正式上线

正式版的o1比先前的预览版本更强大,开始支援多模态的输入,不只文字,还可以输入图片。

o1也能支援结构化输出,可以指定输出JSON格式的内容,可以保证产生有效的JSON,但不一定会依据使用者透过推断 API 呼叫提供的JSON 结构描述定义来生成。

OpenAI採取了一套人工评估作法,发现o1正式版比o1预览版的错误率,减少了34%,平均回答速度也快了50%。预览版回应太慢的问题也获得不少改善,现在输入第一句话后,只需要10秒就可以获得回应,甚至会依据问题难易度,简单问题的回应快,而複杂问题回应速度才会较慢。

在推理能力上,OpenAI特别在意o1模型对于辅助开发的成效,以全球程序竞赛平台Codeforces的得分来说,GPT-4o可以得到11%(解出11%的问题),o1预览版62%,但是正式版o1达到89%的高分,可以解答近9成的程序问题。

不只是推出了新一代推理模型,OpenAI还发表了要价高达每月200美元的ChatGPT Pro订阅模式,在这个模式下可以取得o1 Pro Mode,用更多算力来提高难题的回答準确度。

也就是说,ChatGPT可以按算力提供分级服务,意味着,这款o1模型是一款可以增加算力,来提高準确度的模型,因此,未来是可以购买更多算力,来提高o1的推理能力。

目前,微软Azure AI也开始提供o1推理模型,目前在美国和瑞典各有一个云端区域提供这项模型。

第二天:全新的模型客製化作法RFT

正式推出o1模型的发表会之后,OpenAI研究副总裁Mark Chen紧接着登场,公布了新的模型客製新功能,增强式微调(Reinforcement Fine-tuning,RFT),可以让企业用自己的资料来微调o1模型,但不只是过去的标準微调作法,而是新的增强式微调作法。Mark强调,RFT作法可以让高中生的能力,变成博士等级的模型。微软Azure AI已经开始提供o1模型,同时也开始提供新的增强式微调模式。

Mark Chen强调,RFT适合用于特定领域的任务,透过增强式学习模式,来建立专家级的模型,像是法务,金融,工程,保险,都可以适用。

增强学习微调的原理是,提供一个问题让模型回答,依据不同的思考路线产生一系列的多个答案,针对每一个答案的正确程度,来提供奖励分数,针对得到正确答案的思考线路进行增强,而同时抑制得到错误答案的思考线路。不过,使用者不用考虑背后的运作过程,只需要上传训练资料和验证资料集即可。「这让模型用一种全新的方式,也是更有效的方式,来学会特定领域的推理方式。」Mark解释,增强式学习不是优化模型的输出,而是让模型学会「推理」方法,只要十几个训练案例,就可以有效果。这也是OpenAI用来训练GPT4o和o1模型的训练方式,变成一项平台功能。

进行RFT微调时,企业需要先上传JSON格式的训练资料集,每一行是一笔资料,也可以加入提示工程的指令,产生推论结果后,还要上传一份验证用的资料。透过一个评分器机制,将推论产生的答案和正确答案比较,模型会回传0到1的分数,1代表完全正确,0则代表完全错误。

OpenAI将会提供不同类型的评分器,作为增强式微调使用,也开放企业可以自己用Python来定义自己的评分器,上传使用。目前执行一次RFT的时间,可能从数小时到数天不等。

微软Azure AI服务在12月18日也新增了这项功能,先提供给9月释出的o1-mini可以用RFT,也先在美国North Central US和瑞典 Sweden Central这两个区域提供,支援UI介面操作。?

微软Azure AI服务在去年12月18日开始提供新的增强式微调RFT功能,先开放对9月释出的o1-mini模型使用RFT,目前先在美国North Central US和瑞典 Sweden Central这两个区域提供。(图片来源/微软)

目前已有抢先试用RFT的大型企业,例如Thomson Reuter法律顾问公司用RFT来微调o1-mini模型,用于自家GAI 法务助理Co-Counsel。Thomson Reuter公司在2024年2月发表了用GPT-4打造的法务助理Co-Counsel,更在2024年11月时,宣布开始测试客製化版的o1-mini。这个客製化就是用了RFT来客製化法律事务专门的推理能力。

Thomson Reuter这款AI助理混用了三家公司的LLM模型,处理不同任务。用Google的Gemini处理超长上下文的大型法律文件整合。

用Anthropic的Claude处理税务和合规等需要高度流程客製化的作业,最后则是用客製化版的o1-mini来处理法院诉讼案件摘要中,需要专业人员才能辨识的细微用语差异。

根据他们目前的POC测试结果,RFT微调后的o1-mini模型,可以辨识出律师与当事人往来的保密信件中的用语差异,这是连GPT-4都无法辨识的细节,甚至,过去得靠专门律师才能判断的用词,这也加速了他们文件审查,法律研究,诉讼申请等作业。

OpenAI线上发表时揭露了一项遗传基因研究的RFT应用案例,用了1,100个案例微调o1-mini的正确率达到31%,比单纯用o1-mini的17%高了不少,甚至比没有微调的o1模型的25%还要高。这也反映出微调的效果。微软官网上也介绍了另一个适合RFT的场景是物理学量子光学数学方程序的生成。

第三天,Sora正式上线,开放付费用户使用

Sam Altman亲自主持第三场发表,也就是影片生成服务Sora的上线,开放所有付费用户使用。他指出,AI影片工具是新型态的共同创造模式,他们希望AI可以理解影片,「生成影片将会深深地改变人们使用电脑的方式。」

不只如此,Sora服务对OpenAI有更大的战略意义,Sam Altman强调,AI生成影片是通用人工智慧蓝图的重要一环。他表示「因为影片是AI学习的重要环境,可以让AI从中学到人类在真实世界中的行为。」

目前正式推出的影片生成模型不是去年2月公布的预览版,而是新的进阶版Sora Turbo,可以提供文字生成影片,图片生成影片,影片生成影片等,可选择生成480P到1080P不等影片画质,5秒到20秒长度的影片。

影片生成服务Sora服务採用了新的进阶版Sora Turbo模型,可提供文字生成影片、图片生成影片、影片生成影片等,也能选择生成480P到1080P不等影片画质,或是5到20秒长度的影片。(图片来源/OpenAI)

另外在Sora服务中也推出故事版功能,可以让使用者像是导演般的设计和安排一整个影片的生成,像是描述角色,也可以下提示指令来建立一系列的行为。生成的影片可以用来重新编辑和混合,或是跟另一部影片后製成一个新影片。

特别的是,因为这些是AI生成的影片,使用者可以透过提示,来改变影片中的角色。在发表会的展示中,直接把影片中在沙漠中移动的猛玛象,要Sora模型替换成了机器人在沙漠中的移动,场景和移动方式都一样,但是影片主角变成了类似大象的四脚机器人。目前Plus版订阅用户每个月可以生成50次影片,而Pro版订阅者才能够更多使用量,另外,Sora服务也搭配了避免生成影片滥用的控管机制。

第四到六天:ChatGPT大升级,全新人机协作,深度整合苹果生态

接着连续三场,从第四天到第六天,主要聚焦在ChatGPT产品的大升级,将原本以对话形式为主的功能,发展成多型态的人机协作平台,也跨入更大的苹果产品生态圈。

第四天正式推出了ChatGPT的人机协作新工具Canvas,让使用者与ChatGPT对话,来生成和编辑一篇文章,Canvas让ChatGPT变成了以文件写作为主的创作工具,可以一边和AI讨论和修改,并行画面中的文件内容,提供了新的人机协同写作方式。

不只用于文件写作,甚至可以用来撰写Python程序码,Canvas提供了Python直译器,可以直接在线上执行这段Python程序码,甚至呼叫常用的函式库,绘製图表等。ChatGPT也能补齐程序码的注解,甚至是进行除错,提供建议修改的正确程序码段落,只要同意就可以套用。

在GPT商店中,有许多客製化GPTs,使用特定提示和设计,打造的GPT机器人,可以与其他人分享。现在可以将Canvas模式,加入到客製化GPTs中,让使用这款客製GPTs的其他人,不用刻意打开Canvas,也能使用。换句话说,客製GPT可以把人机协作写作工具Canvas加入到GPTs的生成结果,直接生成一份可以人机共同编辑的文件。

与苹果生态圈的整合上,ChatGPT提供了三种整合方式。第一种是与Siri整合。使用者向Siri提出要求后,Siri会自动建议是否更适合使用ChatGPT,询问使用者同意后就会自动换手来处理。第二项整合ChatGPT和苹果系统内建写作工具,可以套用到全系统各处的写作功能,对文件内容进行修改、摘要或画重点等。第三项整合是相机控制,ChatGPT现在可以控制iPhone 16的相机功能,将画面和声音传到ChatGPT上,让ChatGPT了解使用者的世界,使用者可以自己控制要不要让ChatGPT取得镜头控制权。

苹果则在公布与ChatGPT深度整合计画的同时宣布,苹果智慧服务将开始支援更多地区和语言,一方面在澳洲、加拿大、爱尔兰、纽西兰、南非和英国等国提供在地化英语支持,另一方面也在语言支援上,将会支援中文、印度英语、新加坡英语、法语、德语、义大利语、日语、韩语、葡萄牙语、西班牙语和越南语等,预计2025年4月开始透过软件更新陆续升级这些支援。

ChatGPT另外一项重要的大升级,则是进阶语音对话功能,开始支援影音对话,这是第六天发表会的重点。这项具备影音能力的进阶语音对话功能,使用了4o模型,可以支援50种语言,以更自然的方式与人对话,现在更可以支援即时影音,也能将使用者的萤幕分享给ChatGPT来剖析。这项功能也开启了全新的人与ChatGPT互动的方式,从文字互动,跨入了影音互动的模式,在第六天的线上发表会中,OpenAI工程师用手机拍摄自己沖咖啡的过程,ChatGPT可以监看手沖咖啡的过程,一步步指示,现在要倒多少咖啡粉,如何移动热水壶来倒水的过程,就像旁边有一位资深咖啡师的指导一般。

(图片来源/OpenAI)

在OpenAI十二天发表中的前半段,大多聚焦在全新的模型,全新的ChatGPT服务,这些服务不只是增强原本的服务,而是让人与GAI的互动,从文字互动模式,进入了影音互动,甚至可以说是彷彿是人与机器在真实世界中互动的新典範。

变革关键是多模态模型(Large Multimodal Model,简称LMM)技术的成熟,去年还只是一项热门的前瞻技术,到了今年,则变成了人人可用的新型态GAI产品。我们将在下一期继续剖析十二天发表会的下半场。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论