谷歌发布Gemini 3Deep Think:让AI真正走进实验室
2026年2月13日,谷歌正式推出Gemini 3Deep Think——这不是一次简单的模型迭代,而是一次面向科学探索的重新定义。它不再只是回答“今天天气怎么样”或帮你写邮件的聊天机器人,而是开始和科研人员一起熬夜、推公式、调代码、分析实验数据。
这款模型由谷歌AI团队联合麻省理工、斯坦福、马普研究所等十余个顶尖实验室的科学家共同打磨,目标明确:解决那些没有标准答案、数据残缺、边界模糊的真实科研问题。它不是来“刷分”的,是来“干活”的。
不只是奥赛冠军,更是实验室里的合作者
在2025年国际数学奥林匹克(IMO)模拟测试中,Gemini 3Deep Think以接近金牌水平的得分通过了全部六道压轴题——这道题连许多博士生都要花数小时才能完整推导。它同样在物理与化学奥赛的笔试中取得同等成绩,不是靠记忆公式,而是能从题干中识别隐藏的物理模型,并自主构建求解路径。
更让人意外的是它在“人类最后考试”(Humanity’s Last Exam)中的表现:48.4%的正确率。这个由剑桥大学和DeepMind联合设计的测试,涵盖跨学科综合推理、历史文献解读、伦理困境分析等人类最难的思维任务。48.4%意味着什么?它已经超越了90%的普通研究生,接近博士生平均水平。
在编程领域,它在Codeforces上取得了3455的Elo评分——这个分数在全球选手中位列前0.3%,高于绝大多数职业竞赛选手。它不仅能写高效算法,还能根据论文描述重构一个从未见过的数值模拟框架,甚至能指出原代码中的数值不稳定风险。
谁在用?实验室里已经有人在用它了
从2月12日起,Google AI Ultra订阅用户已可直接在Google AI Studio中启用“深度推理模式”。但真正让它落地的,是那些第一批接入API的科研团队。
在加州理工的天体物理实验室,研究人员用它分析詹姆斯·韦伯望远镜传回的红外数据。过去需要三周手动筛选的异常光谱,现在模型在24小时内标记出7个可能的系外行星候选体,其中两个已被后续观测证实。
在德国马普所的材料科学组,工程师用它建模高温超导体的晶格畸变。传统方法依赖经验参数,而Deep Think从上千篇论文和实验记录中自主提取规律,提出了一种新的缺陷扩散模型,被团队写进即将发表的Nature论文中。
甚至在制药公司,它开始协助筛选药物分子。不是简单预测活性,而是理解靶点蛋白的动态构象变化,提出“可合成、可成药”的新结构——这正是AI从“预测”走向“设计”的关键一步。
不是取代科学家,而是延长他们的思维
一位参与测试的斯坦福教授说:“它不会替我做决定,但它能在我卡壳时,把十篇我漏看的论文关键段落拼起来,告诉我‘你可能忽略了这个变量’。”
这不是一个能自动写论文的工具,而是一个能帮你“看到别人看不到的联系”的助手。它不炫技,不刷榜,只做一件事:把科研人员从重复劳动中解放出来,让他们把时间留给真正的创新。
现在,你可以在Google AI Studio中申请试用。不是为了“体验AI有多强”,而是为了问问它:“这个数据,你看到什么我没看到的?”