谷歌升级研究代理Gemini Deep Research，侧重网站深度查询

Google DeepMind 更新了 Gemini Deep Research 研究代理，并向开发者开放 Interactions API，允许第三方应用将长时间的信息收集与整理流程嵌入自身产品。官方表示，该代理能够在报告中提供引用来源，并支持结构化输出，便于后续系统处理研究结果。同时，Google 开源了名为 DeepSearchQA 的新基准测试，用于衡量研究型代理在多步互联网查询任务中的完整性。

Gemini Deep Research 是专为长时间上下文信息收集与整合而设计的代理程序，采用 Gemini 3 Pro 模型，能够反复规划研究步骤，包括提出查询、阅读结果、识别信息缺口，并进一步搜索以填补空白。此次更新重点强化了网页搜索能力，强调能更深入地访问网站内部页面，精准定位特定信息。

Google 使用 Humanity’s Last Exam、DeepSearchQA 和 BrowseComp 评估 Gemini Deep Research，并称其在 HLE 和 DeepSearchQA 上达到最佳水平，在 BrowseComp 上也实现了当前最优表现。Humanity’s Last Exam 是一个跨领域的高难度题库，常用于检验模型在综合理解与推理能力上的上限；BrowseComp 侧重于网页逐步查询与验证能力，反映代理在真实浏览场景中能否找到关键信息；DeepSearchQA 则聚焦于多步研究流程，强调查询的完整性而非仅答案正确，更贴近研究型代理在真实场景中需要反复查询、补充资料并整合信息的工作模式。

根据官方公布的数据，Gemini Deep Research 在 HLE 上得分为 46.4%，在 DeepSearchQA 上为 66.1%，在 BrowseComp 上为 59.2%。其中，DeepSearchQA 包含 900 道因果链任务，覆盖 17 个领域，题目设计要求代理不仅回答单一事实，还需生成完整的答案集合，以评估搜索召回率与研究完整性。Google 指出，当前多数基准测试仍偏向单点问答，难以反映真实研究工作中常见的多步推理与反复验证过程，因此希望通过 DeepSearchQA 弥补这一评估空白，为后续研究与产品优化提供参考。

Google 表示，Gemini Deep Research 将逐步集成至 Google Search、NotebookLM、Google Finance，并升级 Gemini 应用。Interactions API 为开发者提供统一接口，可调用 Gemini 模型及其内置代理功能，目前以预览形式在 Google AI Studio 提供。

CB科技站

谷歌升级研究代理Gemini Deep Research，侧重网站深度查询

与本文相关的文章