从十二天发表来看OpenAI的2025战略布局

对OpenAI而言，影片生成服务Sora的战略意义在于，AI生成影片是通用人工智慧蓝图的重要一环，因为影片是AI学习的重要环境，可以让AI从中学到人类在真实世界中的行为。（图片来源／OpenAI）

在去年底的十二天发表会期间，OpenAI以新一代推理模型o1正式上线启用揭开序幕。执行长Sam Altman表示，OpenAI的模型技术，开始从通用型的LLM，转向具有複杂推理能力的新一代模型系列。

第一天：新一代推理模型o1正式上线

正式版的o1比先前的预览版本更强大，开始支援多模态的输入，不只文字，还可以输入图片。

o1也能支援结构化输出，可以指定输出JSON格式的内容，可以保证产生有效的JSON，但不一定会依据使用者透过推断 API 呼叫提供的JSON 结构描述定义来生成。

OpenAI採取了一套人工评估作法，发现o1正式版比o1预览版的错误率，减少了34%，平均回答速度也快了50%。预览版回应太慢的问题也获得不少改善，现在输入第一句话后，只需要10秒就可以获得回应，甚至会依据问题难易度，简单问题的回应快，而複杂问题回应速度才会较慢。

在推理能力上，OpenAI特别在意o1模型对于辅助开发的成效，以全球程序竞赛平台Codeforces的得分来说，GPT-4o可以得到11%（解出11%的问题），o1预览版62%，但是正式版o1达到89%的高分，可以解答近9成的程序问题。

不只是推出了新一代推理模型，OpenAI还发表了要价高达每月200美元的ChatGPT Pro订阅模式，在这个模式下可以取得o1 Pro Mode，用更多算力来提高难题的回答準确度。

也就是说，ChatGPT可以按算力提供分级服务，意味着，这款o1模型是一款可以增加算力，来提高準确度的模型，因此，未来是可以购买更多算力，来提高o1的推理能力。

目前，微软Azure AI也开始提供o1推理模型，目前在美国和瑞典各有一个云端区域提供这项模型。

第二天：全新的模型客製化作法RFT

正式推出o1模型的发表会之后，OpenAI研究副总裁Mark Chen紧接着登场，公布了新的模型客製新功能，增强式微调（Reinforcement Fine-tuning，RFT），可以让企业用自己的资料来微调o1模型，但不只是过去的标準微调作法，而是新的增强式微调作法。Mark强调，RFT作法可以让高中生的能力，变成博士等级的模型。微软Azure AI已经开始提供o1模型，同时也开始提供新的增强式微调模式。

Mark Chen强调，RFT适合用于特定领域的任务，透过增强式学习模式，来建立专家级的模型，像是法务，金融，工程，保险，都可以适用。

增强学习微调的原理是，提供一个问题让模型回答，依据不同的思考路线产生一系列的多个答案，针对每一个答案的正确程度，来提供奖励分数，针对得到正确答案的思考线路进行增强，而同时抑制得到错误答案的思考线路。不过，使用者不用考虑背后的运作过程，只需要上传训练资料和验证资料集即可。「这让模型用一种全新的方式，也是更有效的方式，来学会特定领域的推理方式。」Mark解释，增强式学习不是优化模型的输出，而是让模型学会「推理」方法，只要十几个训练案例，就可以有效果。这也是OpenAI用来训练GPT4o和o1模型的训练方式，变成一项平台功能。

进行RFT微调时，企业需要先上传JSON格式的训练资料集，每一行是一笔资料，也可以加入提示工程的指令，产生推论结果后，还要上传一份验证用的资料。透过一个评分器机制，将推论产生的答案和正确答案比较，模型会回传0到1的分数，1代表完全正确，0则代表完全错误。

OpenAI将会提供不同类型的评分器，作为增强式微调使用，也开放企业可以自己用Python来定义自己的评分器，上传使用。目前执行一次RFT的时间，可能从数小时到数天不等。

微软Azure AI服务在12月18日也新增了这项功能，先提供给9月释出的o1-mini可以用RFT，也先在美国North Central US和瑞典 Sweden Central这两个区域提供，支援UI介面操作。?

微软Azure AI服务在去年12月18日开始提供新的增强式微调RFT功能，先开放对9月释出的o1-mini模型使用RFT，目前先在美国North Central US和瑞典 Sweden Central这两个区域提供。（图片来源／微软）

目前已有抢先试用RFT的大型企业，例如Thomson Reuter法律顾问公司用RFT来微调o1-mini模型，用于自家GAI 法务助理Co-Counsel。Thomson Reuter公司在2024年2月发表了用GPT-4打造的法务助理Co-Counsel，更在2024年11月时，宣布开始测试客製化版的o1-mini。这个客製化就是用了RFT来客製化法律事务专门的推理能力。

Thomson Reuter这款AI助理混用了三家公司的LLM模型，处理不同任务。用Google的Gemini处理超长上下文的大型法律文件整合。

用Anthropic的Claude处理税务和合规等需要高度流程客製化的作业，最后则是用客製化版的o1-mini来处理法院诉讼案件摘要中，需要专业人员才能辨识的细微用语差异。

根据他们目前的POC测试结果，RFT微调后的o1-mini模型，可以辨识出律师与当事人往来的保密信件中的用语差异，这是连GPT-4都无法辨识的细节，甚至，过去得靠专门律师才能判断的用词，这也加速了他们文件审查，法律研究，诉讼申请等作业。

OpenAI线上发表时揭露了一项遗传基因研究的RFT应用案例，用了1,100个案例微调o1-mini的正确率达到31%，比单纯用o1-mini的17%高了不少，甚至比没有微调的o1模型的25%还要高。这也反映出微调的效果。微软官网上也介绍了另一个适合RFT的场景是物理学量子光学数学方程序的生成。

第三天，Sora正式上线，开放付费用户使用

Sam Altman亲自主持第三场发表，也就是影片生成服务Sora的上线，开放所有付费用户使用。他指出，AI影片工具是新型态的共同创造模式，他们希望AI可以理解影片，「生成影片将会深深地改变人们使用电脑的方式。」

不只如此，Sora服务对OpenAI有更大的战略意义，Sam Altman强调，AI生成影片是通用人工智慧蓝图的重要一环。他表示「因为影片是AI学习的重要环境，可以让AI从中学到人类在真实世界中的行为。」

目前正式推出的影片生成模型不是去年2月公布的预览版，而是新的进阶版Sora Turbo，可以提供文字生成影片，图片生成影片，影片生成影片等，可选择生成480P到1080P不等影片画质，5秒到20秒长度的影片。

影片生成服务Sora服务採用了新的进阶版Sora Turbo模型，可提供文字生成影片、图片生成影片、影片生成影片等，也能选择生成480P到1080P不等影片画质，或是5到20秒长度的影片。（图片来源／OpenAI）

另外在Sora服务中也推出故事版功能，可以让使用者像是导演般的设计和安排一整个影片的生成，像是描述角色，也可以下提示指令来建立一系列的行为。生成的影片可以用来重新编辑和混合，或是跟另一部影片后製成一个新影片。

特别的是，因为这些是AI生成的影片，使用者可以透过提示，来改变影片中的角色。在发表会的展示中，直接把影片中在沙漠中移动的猛玛象，要Sora模型替换成了机器人在沙漠中的移动，场景和移动方式都一样，但是影片主角变成了类似大象的四脚机器人。目前Plus版订阅用户每个月可以生成50次影片，而Pro版订阅者才能够更多使用量，另外，Sora服务也搭配了避免生成影片滥用的控管机制。

第四到六天：ChatGPT大升级，全新人机协作，深度整合苹果生态

接着连续三场，从第四天到第六天，主要聚焦在ChatGPT产品的大升级，将原本以对话形式为主的功能，发展成多型态的人机协作平台，也跨入更大的苹果产品生态圈。

第四天正式推出了ChatGPT的人机协作新工具Canvas，让使用者与ChatGPT对话，来生成和编辑一篇文章，Canvas让ChatGPT变成了以文件写作为主的创作工具，可以一边和AI讨论和修改，并行画面中的文件内容，提供了新的人机协同写作方式。

不只用于文件写作，甚至可以用来撰写Python程序码，Canvas提供了Python直译器，可以直接在线上执行这段Python程序码，甚至呼叫常用的函式库，绘製图表等。ChatGPT也能补齐程序码的注解，甚至是进行除错，提供建议修改的正确程序码段落，只要同意就可以套用。

在GPT商店中，有许多客製化GPTs，使用特定提示和设计，打造的GPT机器人，可以与其他人分享。现在可以将Canvas模式，加入到客製化GPTs中，让使用这款客製GPTs的其他人，不用刻意打开Canvas，也能使用。换句话说，客製GPT可以把人机协作写作工具Canvas加入到GPTs的生成结果，直接生成一份可以人机共同编辑的文件。

与苹果生态圈的整合上，ChatGPT提供了三种整合方式。第一种是与Siri整合。使用者向Siri提出要求后，Siri会自动建议是否更适合使用ChatGPT，询问使用者同意后就会自动换手来处理。第二项整合ChatGPT和苹果系统内建写作工具，可以套用到全系统各处的写作功能，对文件内容进行修改、摘要或画重点等。第三项整合是相机控制，ChatGPT现在可以控制iPhone 16的相机功能，将画面和声音传到ChatGPT上，让ChatGPT了解使用者的世界，使用者可以自己控制要不要让ChatGPT取得镜头控制权。

苹果则在公布与ChatGPT深度整合计画的同时宣布，苹果智慧服务将开始支援更多地区和语言，一方面在澳洲、加拿大、爱尔兰、纽西兰、南非和英国等国提供在地化英语支持，另一方面也在语言支援上，将会支援中文、印度英语、新加坡英语、法语、德语、义大利语、日语、韩语、葡萄牙语、西班牙语和越南语等，预计2025年4月开始透过软件更新陆续升级这些支援。

ChatGPT另外一项重要的大升级，则是进阶语音对话功能，开始支援影音对话，这是第六天发表会的重点。这项具备影音能力的进阶语音对话功能，使用了4o模型，可以支援50种语言，以更自然的方式与人对话，现在更可以支援即时影音，也能将使用者的萤幕分享给ChatGPT来剖析。这项功能也开启了全新的人与ChatGPT互动的方式，从文字互动，跨入了影音互动的模式，在第六天的线上发表会中，OpenAI工程师用手机拍摄自己沖咖啡的过程，ChatGPT可以监看手沖咖啡的过程，一步步指示，现在要倒多少咖啡粉，如何移动热水壶来倒水的过程，就像旁边有一位资深咖啡师的指导一般。