Google DeepMind 更新了 Gemini Deep Research 研究代理,并向开发者开放 Interactions API,允许第三方应用将长时间的信息收集与整理流程嵌入自身产品。官方表示,该代理能够在报告中提供引用来源,并支持结构化输出,便于后续系统处理研究结果。同时,Google 开源了名为 DeepSearchQA 的新基准测试,用于衡量研究型代理在多步互联网查询任务中的完整性。
Gemini Deep Research 是专为长时间上下文信息收集与整合而设计的代理程序,采用 Gemini 3 Pro 模型,能够反复规划研究步骤,包括提出查询、阅读结果、识别信息缺口,并进一步搜索以填补空白。此次更新重点强化了网页搜索能力,强调能更深入地访问网站内部页面,精准定位特定信息。
Google 使用 Humanity’s Last Exam、DeepSearchQA 和 BrowseComp 评估 Gemini Deep Research,并称其在 HLE 和 DeepSearchQA 上达到最佳水平,在 BrowseComp 上也实现了当前最优表现。Humanity’s Last Exam 是一个跨领域的高难度题库,常用于检验模型在综合理解与推理能力上的上限;BrowseComp 侧重于网页逐步查询与验证能力,反映代理在真实浏览场景中能否找到关键信息;DeepSearchQA 则聚焦于多步研究流程,强调查询的完整性而非仅答案正确,更贴近研究型代理在真实场景中需要反复查询、补充资料并整合信息的工作模式。
根据官方公布的数据,Gemini Deep Research 在 HLE 上得分为 46.4%,在 DeepSearchQA 上为 66.1%,在 BrowseComp 上为 59.2%。其中,DeepSearchQA 包含 900 道因果链任务,覆盖 17 个领域,题目设计要求代理不仅回答单一事实,还需生成完整的答案集合,以评估搜索召回率与研究完整性。Google 指出,当前多数基准测试仍偏向单点问答,难以反映真实研究工作中常见的多步推理与反复验证过程,因此希望通过 DeepSearchQA 弥补这一评估空白,为后续研究与产品优化提供参考。
Google 表示,Gemini Deep Research 将逐步集成至 Google Search、NotebookLM、Google Finance,并升级 Gemini 应用。Interactions API 为开发者提供统一接口,可调用 Gemini 模型及其内置代理功能,目前以预览形式在 Google AI Studio 提供。