
继去年公布首个具推理能力的Gemini 2.0 Flash Thinking模型后,Google昨(25)日发表Gemini 2.5模型,作为Gemini新一代模型家族的最新成员,Google宣称在多项测试中击败OpenAI o3-mini、DeepSeek R1等模型。
Gemini 2.0 Flash Thinking和Gemini 2.5是结合强化式学习及思维链等技术,但在更好的基础模型上辅以更有效的后训练,使效能更为提升。一如OpenAI未来不再区分独立的推理模型,Google未来也将把这些思维能力整合到所有模型,使其得以处理更複杂问题,支援具情境感知能力的AI代理人。
Gemini 2.5具备100万字词(token)的context window,很快会再升级到200万字词。这新模型能理解庞大的资料集,处理不同资料源,包括文字、影、音甚至整个程序库的资料,以解决複杂的问题。
Gemini 2.5将提供多个版本。首先推出的是Gemini 2.5 Pro Experimental,号称为Google处理複杂任务的最进阶模型。根据LMArena的标竿测试结果,Gemini 2.5 Pro Experimental在科学、数学、程序编辑、视觉推理及长脉络(long context)等测试中,都超越竞争模型如OpenAI o3-mini、GPT-4.5、Claude 3.7 Sonnet或DeepSeek R1,像是科学测试GPQA Diamond得分为84%,数学测试AIME则为86.7%。在推理与知识测试中,Gemini 2.5 Pro拿下18.8%的最佳成绩,而在代理人程序撰写的SWE-Bench Verified测试中,Gemini 2.5 Pro得分63.8%,仅次于Claude 3.7 Sonnet。
Google也示範了Gemini 2.5 Pro可以在输入一行提示后,撰写出电玩游戏的执行档程序。
Gemini 2.5 Pro Experimental现在透过Google AI Studio提供给开发商及企业,以及付费的Gemini Advanced方案,后者用户可以在桌机或手机上,在模型下拉选单中选取使用。几个星期内Gemini 2.5 Pro Experimental也会在Vertex AI平台上线。