微软Copilot Researcher新增多模型协作模式，提升研究报告准确性

Microsoft 365 Copilot 内置的深度研究代理 Researcher 新增了 Critique 和 Council 两项多模型能力，采用来自 Anthropic 与 OpenAI 等公司的模型协同工作。其中，Critique 将研究流程中的生成与评估交由不同模型分别处理，以提升研究结果的准确性与分析深度。Critique 将成为 Researcher 在模型选择器设为自动时的默认体验。

Critique 将过去由单一模型独立完成的规划、检索、综合与撰写等工作，拆分为两个阶段。第一阶段由一个模型负责任务规划、数据检索迭代与初稿撰写；第二阶段则由另一个模型担任审查者，依据结构化评分标准，从来源可靠性、报告完整性、证据引用精确度三个维度进行审阅，确认关键主张均有可靠来源支撑后，再输出最终报告。该流程类似学术与专业研究中的同行评审机制，使评估环节获得与生成环节同等的重视。

微软采用 DRACO 基准进行性能验证，使用 OpenAI GPT-5.2 作为评审模型，并依照该基准论文公开的测试协议执行测试，每道题目进行五次独立评测后取平均值。

搭载 Critique 的 Researcher 总分为 57.4 分，较该基准中表现最佳的 Perplexity Deep Research 高出 7.0 分。在四个评测维度中，分析广度与深度的提升最为显著，提高 3.33 分，其次为呈现质量提升 3.04 分、事实准确性提升 2.58 分，各维度均达到统计显著水平。微软认为，审查层有效促使系统识别遗漏的分析角度、强化组织架构，同时挑战薄弱论点以提高引用精确度。不过，Critique 的测试分数并非出自 DRACO 原始论文，而是微软依据相同协议自行测试后加入比较。

Council 是另一种运作方式。Anthropic 与 OpenAI 的模型会各自独立生成完整研究报告，再由专门的评审模型汇总重点，指出双方的共识、分歧以及各自提供的独特观点，供用户对照参考。用户可在 Researcher 的模型选择器中选择 Model Council 启用该模式。

此外，微软也宣布 Copilot Cowork 已通过 Frontier 计划开放早期访问。Copilot Cowork 是一款处理长时间、多步骤任务的 AI 代理，用户只需描述期望成果，系统即可自动制定计划，跨工具与文件进行推理并逐步执行，过程中用户可随时查看进度并介入调整。微软表示，Copilot Cowork 整合了 Claude 与微软自身的技能模块，涵盖日程管理与每日摘要等功能，适用于从单次任务到定期重复流程等多种场景。

CB科技站

微软Copilot Researcher新增多模型协作模式，提升研究报告准确性

与本文相关的文章