Claude Code新增快速模式，以更高费用换取Opus 4.6低延迟响应

Claude Code 推出快速模式（Fast Mode），允许用户通过偏向速度的 API 配置，降低 Claude Opus 4.6 的响应延迟。在单位 token 费率更高的前提下，输出 token 的生成速度最高可提升约 2.5 倍，同时保证模型的智能与能力不变。目前该功能仍处于研究预览阶段，后续将根据用户反馈进行调整。

Claude Code 快速模式按每百万 token 计费，并根据上下文长度分为两个阶梯。当对话上下文长度不足 20 万 token 时，输入价格为每百万 token 30 美元，输出价格为每百万 token 150 美元；超过 20 万 token 时，价格分别提升至 60 美元和 225 美元。官方表示，快速模式兼容 100 万 token 的扩展上下文窗口，适合加速长时间交互任务。

官方提醒，启用时机会影响实际费用。如果在对话中途才开启快速模式，系统将按快速模式的未缓存输入费率，对整段对话上下文重新计价，可能导致成本高于从一开始就启用的情况。因此，建议用户在明确需要高速响应的会话中，从一开始就决定是否启用，避免中途切换。

快速模式适用于 Claude Code 订阅用户，以及通过 Claude Console 使用的开发者。对于 Pro、Max、Team、Enterprise 等订阅用户，快速模式仅作为额外用量计费，不计入订阅方案原有的用量上限和速率限制。即使账户仍有订阅配额剩余，快速模式的使用仍会单独计费。用户需提前启用额外用量功能；Team 和 Enterprise 用户默认关闭，需由管理员在组织设置中手动开启。目前，通过 Amazon Bedrock、Google Vertex AI 和 Microsoft Azure Foundry 等第三方云平台的用户暂不支持快速模式。

Anthropic 表示，快速模式采用独立于标准模式的速率限制机制。当用户达到快速模式的速率上限或额外用量额度不足时，系统将自动降级为标准 Opus 4.6 速度并进入冷却期，冷却结束后自动恢复快速模式。

Claude Code 低延迟快速模式 Opus 4.6

CB科技站

Claude Code新增快速模式，以更高费用换取Opus 4.6低延迟响应

与本文相关的文章