最新消息:关注人工智能 AI赋能新媒体运营

OpenAI新一代具关联思考能力的模型o1,可逐步分析推理精确解答问题

科技智能 admin 浏览 评论

OpenAI o1模型在广泛的基準测试中,表现都比GPT-4o还要更好

OpenAI推出全新大型语言模型o1,其推理能力大幅提升,在数学、程序设计和博士程度的科学问题等基準测试中表现优异,大幅超越先前发表的GPT-4o模型。o1模型的特点在于透过关联思考(Chain of Thought),在多数複杂推理任务中表现接近甚至超越人类专家。在最新的美国国际数学邀请赛(AIME)中取得接近全国前500名的成绩,o1也是目前第一个在GPQA科学测试中超越人类博士的模型。

图片来源/OpenAI

OpenAI o1是一个针对複杂推理问题设计的新一代大型语言模型,相较于之前的模型,o1透过强化学习来增强其推理能力,能够对问题进行深度思考。官方解释,o1关联思考(Chain of Thought)的能力模拟人类解题时逻辑推理过程,藉由分步骤分析问题,再做出回应。而这种能力大幅提升o1处理複杂任务的準确性和可靠性。

在数学以及程序设计领域,o1的表现尤为亮眼,展现了解决高难度问题所需要的强大推理能力。以2024年的AIME数学考试为例,o1单次尝试就可解决74%的题目,而透过共识决方法,也就是经多次解法的综合判断,準确度可以提高至93%。在程序设计领域,o1在Codeforces竞技程序测试表现也相当优异,针对国际资讯奥林匹亚(International Olympiad in Informatics,IOI)调校的模型变体o1-ioi,其Elo评分达到1807,超过93%的人类竞争者。

图片来源/OpenAI

o1有能力逐步分析问题,拆解複杂步骤并自动修正错误,而透过强化学习,则又能从每次的尝试中学习改进,持续最佳化其解题技巧,这让o1模型在解决需要深度推理的问题时,具备更高的準确性、效率和稳定性。

目前OpenAI已经释出o1早期版本OpenAI o1-preview,使用者已经可以在ChatGPT中进行测试,并开放给部分受信任的API使用者。GitHub也展示了o1模型在程序设计的能力,包括o1-preview如何协助开发者最佳化複杂演算法,甚至找出并解决造成应用程序效能低落的问题程序码。GitHub官方预计之后会将o1-preview和轻量级o1-mini加入到可选模型的行列,目前开发者需要先透过Azure AI申请早期存取。

除了OpenAI o1在程序设计和数学问题上的先进发展,其他组织也在推进类似的技术进步。DeepMind在今年7月的时候,也展示了其能够解决数学难题的人工智慧模型AlphaGeometry 2,该模型可解决了2024年国际数学奥林匹亚竞赛(IMO)6道数学难题中的4道题目,达到了银牌得主的水準。不过,AlphaGeometry 2并非典型的大型语言模型,而是基于Gemini语言模型的神经符号(Neuro-Symbolic)混合系统,专门为处理複杂数学问题的推理和解答而设计。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论