GitHub Copilot CLI 新增橡皮鸭审查代理，通过双模型审查机制提供第二意见

GitHub 在 Copilot CLI 中以实验模式推出名为 Rubber Duck 的新功能，通过引入不同 AI 模型家族作为独立审查者，在代码代理的关键工作阶段提供第二意见，以降低 AI 自动生成代码时累积错误的风险。

当前 AI 编程代理的工作流程通常是评估任务、制定计划、实现、测试，再根据结果迭代修正。该流程虽然有效，但如果代理在早期规划阶段做出错误判断，后续所有工作都会建立在有问题的基础上，等到开发者察觉时，往往已经牵连多处代码。过去的做法是让模型自我审查，但同一个模型受限于相同的训练数据与偏差，很难发现自身的盲点。

Rubber Duck 的做法是引入不同模型家族担任独立审查者。当用户在 Copilot CLI 的模型选择器中选用 Claude 系列模型作为主模型时，Rubber Duck 会以 GPT-5.4 进行独立审查，提出主模型可能遗漏的细节、值得质疑的假设，以及需要纳入考量的边界情况。GitHub 表示，目前 Claude 家族模型 Opus、Sonnet 与 Haiku 均可搭配 Rubber Duck 使用，也在探索 GPT-5.4 担任主模型时的其他模型组合。

GitHub 使用开源项目中大型、高难度的实际编程问题 SWE-Bench Pro 进行评估，结果显示 Claude Sonnet 4.6 搭配由 GPT-5.4 驱动的 Rubber Duck，可弥补 Sonnet 与 Opus 之间 74.7% 的性能差距。在跨越三个以上文件、通常需要七十个以上步骤的复杂任务中，效果更为明显，较 Sonnet 基准高出 3.8%，在三次试验中识别出的最困难问题上则高出 4.8%。

在触发机制上，Rubber Duck 会在三个检查点自动启动，分别是规划草案完成后、复杂实现完成后，以及测试编写完成但尚未执行前。此外，当代理陷入循环无法推进时，也会主动寻求 Rubber Duck 的反馈。用户也可在任意时间点手动要求 Copilot 进行审查。GitHub 强调，Rubber Duck 仅在反馈价值最高的时机介入，以避免干扰正常工作流程。

目前该功能需在 Copilot CLI 中执行 /experimental 斜线指令启用，并需具备 GPT-5.4 的访问权限。GitHub 表示，Rubber Duck 更适合用于复杂重构、架构变更、高风险任务，以及需要确认测试覆盖率是否完整的情境。

CB科技站

GitHub Copilot CLI 新增橡皮鸭审查代理，通过双模型审查机制提供第二意见

与本文相关的文章