
Google昨(22)日宣布释出具推理能力的Gemini 2.0 Flash Thinking AI模型最新实验版(Experimental),不但数学和科学推理效能上升,也会撰写和执行程序。
最新释出的模型为Gemini 2.0 Flash Thinking Experimental 01-21(Exp 01-21),以去年12月公布的Gemini 2.0 Flash Thinking为基础开发,为挑战OpenAI的o3模型。名称中的Thinking代表相对于Gemini Flash,这家族模型具有解决複杂问题的推理能力,以及新颖的思考能力,它对用户询问会先经过「思考」再做出回应。
Gemini 2.0 Flash Thinking具备100万字词的context windows,可支援大量文字的深度分析,且思考和答案更具一致性(较少矛盾),能产生更长字词的回应,数学和科学解题能力也更提升。最新Exp 01-21版和前一个实验版(Exp 1219)的标竿测试比较中,数学标竿测试AIME 2024,Exp 01-21和Exp 1219跑分分别为73% vs. 70%、科学标竿测试GPQA Diamond分别为74% vs. 66%,标竿测试分别为74% vs. 66%。
Google员工还补充,最新版本加入使用和评估程序码的能力,因此模型可以在回应时决定写或执行程序。DeepMind执行长Demis Hassabis说,这显示光在12月Gemini 2.0 Flash Thinking就展现极快进展。
现在Exp 01-21版Gemini 2.0 Flash Thinking模型已部署到AI Studio,开发人员可以在AI Studio侧边栏启用,也可直接使用Gemini API在程序码中使用实验模型。
另一方面,OpenAI也在加紧赶工,目前正在测试o3 mini,OpenAI预告再几个星期就会推出。