GitHub 在 Copilot CLI 中以实验模式推出名为 Rubber Duck 的新功能,通过引入不同 AI 模型家族作为独立审查者,在代码代理的关键工作阶段提供第二意见,以降低 AI 自动生成代码时累积错误的风险。
当前 AI 编程代理的工作流程通常是评估任务、制定计划、实现、测试,再根据结果迭代修正。该流程虽然有效,但如果代理在早期规划阶段做出错误判断,后续所有工作都会建立在有问题的基础上,等到开发者察觉时,往往已经牵连多处代码。过去的做法是让模型自我审查,但同一个模型受限于相同的训练数据与偏差,很难发现自身的盲点。
Rubber Duck 的做法是引入不同模型家族担任独立审查者。当用户在 Copilot CLI 的模型选择器中选用 Claude 系列模型作为主模型时,Rubber Duck 会以 GPT-5.4 进行独立审查,提出主模型可能遗漏的细节、值得质疑的假设,以及需要纳入考量的边界情况。GitHub 表示,目前 Claude 家族模型 Opus、Sonnet 与 Haiku 均可搭配 Rubber Duck 使用,也在探索 GPT-5.4 担任主模型时的其他模型组合。
GitHub 使用开源项目中大型、高难度的实际编程问题 SWE-Bench Pro 进行评估,结果显示 Claude Sonnet 4.6 搭配由 GPT-5.4 驱动的 Rubber Duck,可弥补 Sonnet 与 Opus 之间 74.7% 的性能差距。在跨越三个以上文件、通常需要七十个以上步骤的复杂任务中,效果更为明显,较 Sonnet 基准高出 3.8%,在三次试验中识别出的最困难问题上则高出 4.8%。
在触发机制上,Rubber Duck 会在三个检查点自动启动,分别是规划草案完成后、复杂实现完成后,以及测试编写完成但尚未执行前。此外,当代理陷入循环无法推进时,也会主动寻求 Rubber Duck 的反馈。用户也可在任意时间点手动要求 Copilot 进行审查。GitHub 强调,Rubber Duck 仅在反馈价值最高的时机介入,以避免干扰正常工作流程。
目前该功能需在 Copilot CLI 中执行 /experimental 斜线指令启用,并需具备 GPT-5.4 的访问权限。GitHub 表示,Rubber Duck 更适合用于复杂重构、架构变更、高风险任务,以及需要确认测试覆盖率是否完整的情境。