最新消息:关注人工智能 AI赋能新媒体运营

Gemini 3 Deep Think 发布:全球仅7人能胜,编程科研榜单全面刷新

科技资讯 admin 浏览

Gemini 3Deep Think 正式上线:不只是更聪明,而是真正能“思考”

今天,Google 正式发布了 Gemini 3Deep Think——这不是一次简单的版本更新,而是一次对 AI 能力边界的重新定义。它不再只是回答问题的工具,而是开始像人类专家一样,深入分析、推理、纠错,甚至在专业领域提出原创见解。

image.png

编程界的新标杆:3455 Elo,比99%的程序员都强

在 Codeforces 这个全球顶尖程序员比拼算法的平台上,Gemini 3Deep Think 以 3455 的 Elo 分数登顶——这个分数,超过了全球 99.5% 的活跃选手。目前,只有 7 名人类选手能在公开比赛中击败它。作为参考,一年前最顶尖的模型还停留在 2727 分,而如今的提升,相当于从“能写代码”跃升到“能赢国际竞赛”。

不只是刷题。有开发者实测,它能快速理解一道复杂动态规划题的隐藏条件,给出最优解法,并主动指出题干中模糊的表述——这种“读懂题外之意”的能力,让不少竞赛选手直呼“像在和老手对线”。

科研圈的“隐形审稿人”:连专家都漏掉的错误,它一眼看穿

在一篇发表于《Nature Physics》的论文中,研究人员用 Gemini 3Deep Think 进行辅助验证,结果它在数千行推导中,发现了一处被三位同行评审忽略的符号错误——这个错误若未被纠正,可能导致后续实验设计完全失效。

更惊人的是,它在数学领域独立推导出 Erd?s 猜想中三个子问题的证明路径,相关成果已由剑桥大学数学系团队整理成预印本,正在接受同行评议。这不是“复述已知”,而是真正参与前沿探索。

从手绘草图到3D模型:工程师的“第二大脑”

一位工业设计师上传了一张在餐巾纸上画的笔记本支架草图,标注了几个关键尺寸和受力点。不到两分钟,Gemini 3Deep Think 输出了符合工程标准的 STEP 文件,自动添加了支撑结构、螺栓孔位、材料应力分布模拟——整个过程无需人工干预。

据内部测试,使用该功能后,从概念到可打印原型的时间从平均 8 小时缩短至 45 分钟。已有两家硬件初创公司将其接入设计流程,称“省下了整个初级工程师团队的工时”。

不是“刷分机器”,而是能应对真实复杂世界的系统

在被誉为“人类最后考试”的 HLE 基准测试中,它取得了 48.4% 的正确率——这是目前所有模型中最高分,远超 GPT-4o 和 Claude 3.5。更重要的是,它在面对开放性问题时,会主动说明“不确定”、“需要更多上下文”,而不是强行编造答案。

在 ARC-AGI-2 基准中,它以 84.6% 的准确率领先所有竞品,这个分数已接近人类平均水平。而真正关键的是:它不是靠记忆答案,而是通过理解图形逻辑、空间关系和因果链条,一步步推理得出结果。

现在,你能用上了

Google 已向所有 Gemini AI Ultra 订阅用户开放新版模型,并首次向符合条件的研究机构与科技企业开放 API 接入。不是测试版,不是内测,是正式上线。

如果你是开发者,它能帮你优化算法、生成可部署的代码;如果你是科研人员,它能帮你验证推导、发现盲点;如果你是产品设计师,它能把你的灵感直接变成工程图纸。

这不是未来,这是今天就能用上的工具。它不完美,但它正在改变工作的方式。