Google发表具推理能力的Gemini 2.5，效能击败o3-mini、DeepSeek R1

图片来源:

Google

继去年公布首个具推理能力的Gemini 2.0 Flash Thinking模型后，Google昨（25）日发表Gemini 2.5模型，作为Gemini新一代模型家族的最新成员，Google宣称在多项测试中击败OpenAI o3-mini、DeepSeek R1等模型。

Gemini 2.0 Flash Thinking和Gemini 2.5是结合强化式学习及思维链等技术，但在更好的基础模型上辅以更有效的后训练，使效能更为提升。一如OpenAI未来不再区分独立的推理模型，Google未来也将把这些思维能力整合到所有模型，使其得以处理更複杂问题，支援具情境感知能力的AI代理人。

Gemini 2.5具备100万字词（token）的context window，很快会再升级到200万字词。这新模型能理解庞大的资料集，处理不同资料源，包括文字、影、音甚至整个程序库的资料，以解决複杂的问题。

Gemini 2.5将提供多个版本。首先推出的是Gemini 2.5 Pro Experimental，号称为Google处理複杂任务的最进阶模型。根据LMArena的标竿测试结果，Gemini 2.5 Pro Experimental在科学、数学、程序编辑、视觉推理及长脉络（long context）等测试中，都超越竞争模型如OpenAI o3-mini、GPT-4.5、Claude 3.7 Sonnet或DeepSeek R1，像是科学测试GPQA Diamond得分为84%，数学测试AIME则为86.7%。在推理与知识测试中，Gemini 2.5 Pro拿下18.8%的最佳成绩，而在代理人程序撰写的SWE-Bench Verified测试中，Gemini 2.5 Pro得分63.8%，仅次于Claude 3.7 Sonnet。

Google也示範了Gemini 2.5 Pro可以在输入一行提示后，撰写出电玩游戏的执行档程序。

Gemini 2.5 Pro Experimental现在透过Google AI Studio提供给开发商及企业，以及付费的Gemini Advanced方案，后者用户可以在桌机或手机上，在模型下拉选单中选取使用。几个星期内Gemini 2.5 Pro Experimental也会在Vertex AI平台上线。

CB科技站

Google发表具推理能力的Gemini 2.5，效能击败o3-mini、DeepSeek R1

与本文相关的文章