最新消息:关注人工智能 AI赋能新媒体运营

微软Copilot Researcher新增多模型协作模式,提升研究报告准确性

科技资讯 admin 浏览

Microsoft 365 Copilot 内置的深度研究代理 Researcher 新增了 Critique 和 Council 两项多模型能力,采用来自 Anthropic 与 OpenAI 等公司的模型协同工作。其中,Critique 将研究流程中的生成与评估交由不同模型分别处理,以提升研究结果的准确性与分析深度。Critique 将成为 Researcher 在模型选择器设为自动时的默认体验。

Critique 将过去由单一模型独立完成的规划、检索、综合与撰写等工作,拆分为两个阶段。第一阶段由一个模型负责任务规划、数据检索迭代与初稿撰写;第二阶段则由另一个模型担任审查者,依据结构化评分标准,从来源可靠性、报告完整性、证据引用精确度三个维度进行审阅,确认关键主张均有可靠来源支撑后,再输出最终报告。该流程类似学术与专业研究中的同行评审机制,使评估环节获得与生成环节同等的重视。

微软采用 DRACO 基准进行性能验证,使用 OpenAI GPT-5.2 作为评审模型,并依照该基准论文公开的测试协议执行测试,每道题目进行五次独立评测后取平均值。

搭载 Critique 的 Researcher 总分为 57.4 分,较该基准中表现最佳的 Perplexity Deep Research 高出 7.0 分。在四个评测维度中,分析广度与深度的提升最为显著,提高 3.33 分,其次为呈现质量提升 3.04 分、事实准确性提升 2.58 分,各维度均达到统计显著水平。微软认为,审查层有效促使系统识别遗漏的分析角度、强化组织架构,同时挑战薄弱论点以提高引用精确度。不过,Critique 的测试分数并非出自 DRACO 原始论文,而是微软依据相同协议自行测试后加入比较。

Council 是另一种运作方式。Anthropic 与 OpenAI 的模型会各自独立生成完整研究报告,再由专门的评审模型汇总重点,指出双方的共识、分歧以及各自提供的独特观点,供用户对照参考。用户可在 Researcher 的模型选择器中选择 Model Council 启用该模式。

此外,微软也宣布 Copilot Cowork 已通过 Frontier 计划开放早期访问。Copilot Cowork 是一款处理长时间、多步骤任务的 AI 代理,用户只需描述期望成果,系统即可自动制定计划,跨工具与文件进行推理并逐步执行,过程中用户可随时查看进度并介入调整。微软表示,Copilot Cowork 整合了 Claude 与微软自身的技能模块,涵盖日程管理与每日摘要等功能,适用于从单次任务到定期重复流程等多种场景。