最新消息:关注人工智能 AI赋能新媒体运营

基础设施3项缺陷影响Claude回应质量,Anthropic已完成修复并加强质量检测

科技智能 admin 浏览 评论

Anthropic发布技术报告,说明8月至9月初三项基础设施缺陷导致Claude响应质量间歇性下降

Anthropic公布技术报告,说明今年8月至9月初期间,三项基础设施工具缺陷叠加,导致Claude的响应质量出现间歇性下降。官方强调这些问题并非因需求、服务器负载或时段而降低模型水平,而是基础设施部署与配置的缺陷所致。目前多数修复已完成,并同步推动更严格的质检与监控机制。

事件始于8月5日,Sonnet 4部分请求被错误导向新一代100万Token上下文长度服务集群,起初影响比例仅0.8%。但在8月29日的负载均衡调整放大了流量分配,至8月31日时,受影响比例一度达到16%。由于采用具有黏性的路由策略,一旦对话首次被分配至错误服务集群,后续请求也更可能持续受到影响。在第三方平台上,Amazon Bedrock高峰期受影响约0.18%,Google Cloud Vertex AI则比例低于0.0004%。

第二个问题出现在8月25日,Claude API的TPU服务器因部署配置错误,导致部分请求在Token生成时出现概率分布异常。表现上,英文回复中可能夹杂泰文或中文字符,或代码中出现明显语法错误。此问题影响了8月25日至28日的Opus 4.1与Opus 4,以及8月25日至9月2日的Sonnet 4。Anthropic已在9月2日回滚相关变更,并新增对非预期字符的检测流程,以降低类似风险。

第三个问题与XLA:TPU编译器中的近似top-k算法有关。8月25日部署的新采样程序触发潜在错误编译(Miscompilation),已确认影响Haiku 3.5,并推测波及部分Sonnet 4与Opus 3。Anthropic于9月4日先回滚Haiku 3.5的变更,9月12日再针对Opus 3处理,对Sonnet 4则采取预防性回滚,后续Claude全面改用精确top-k运算,并统一部分计算至fp32精度。

Anthropic指出,此次事件难以快速诊断的原因在于三个缺陷同时发生,且在不同平台上的表现症状各异,外观看似随机错误。现有评测流程对零星失误敏感度不足,再加上内部隐私规范限制工程团队直接访问未经用户反馈的交互内容,增加了问题定位的难度。尤其在8月29日负载均衡调整后,负面反馈同时上升,进一步模糊了变更与问题之间的关联。

针对后续改进,Anthropic已提高评测灵敏度,并将评测机制延伸至真实生产环境持续执行,以便在异常发生时能更快捕捉。同时开发调试工具,让工程团队能在不影响用户隐私的前提下,更有效重现社区反馈案例。

官方也提醒,因生成流程调整为精确top-k并加强数值精度管理,极少数使用场景可能需要开发者重新微调top-p等参数。至于平台影响层面,自有服务,包括API、网页版Claude与Claude Code受影响较明显,第三方平台影响范围则相对有限。目前多数修复已完成,Amazon Bedrock仍在推送更新,稍晚完成。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论