Cloudflare解释上周五为应对React漏洞实施防护措施时,部分代理服务器出现错误,导致两周内第二次服务中断。
世界协调时间12月5日早上8:47,部分Cloudflare网络发生中断,约半小时后恢复,于09:12所有服务恢复正常(北京时间同日16:47至17:12)。受影响的HTTP流量约占Cloudflare总流量的28%。
Cloudflare表示,此次中断并非由网络攻击或任何恶意活动直接或间接引发。公司技术长Dane Knecht解释,上周React服务器通报了CVSS评分10分的重大漏洞CVE-2025-55182,因此Cloudflare代理服务器将内存中HTTP请求解析缓冲区从128KB提升至1MB,作为Web应用防火墙(WAF)的分析策略,该值为Next.js应用的默认最高配置。
管理团队在首次使用渐进式部署系统修改WAF规则时,发现内部WAF测试工具不支持扩大缓冲区,且对客户流量无影响,因此决定进行第二次变更,试图关闭WAF测试工具。然而,其全球配置系统未执行渐进式部署,而是在数秒内将变更一次性推送到所有Cloudflare服务器。在“特定情况下”,该变更在FL1版本的代理服务器上触发了规则模块的一个漏洞,导致返回500 HTTP错误码。这是一个运行时错误,影响使用较旧FL1代理服务器及Cloudflare托管的客户网页资源,仅少数测试终端和中国网络支持的客户不受影响。
11月18日,Cloudflare也曾发生过一次类似中断,持续时间长达6小时。两次中断均是为了防范安全漏洞,却意外导致绝大多数客户服务异常。
为此,Cloudflare作出以下改进:第一,优化部署与版本控制系统;第二,简化控制层架构,确保在多重故障时仍能执行关键操作,即“熔断机制”;第三,承诺将所有关键Cloudflare数据层组件的硬性失败逻辑(hard-fail logic)改为“失败开放”(Fail-Open)错误处理机制,即系统发生错误时默认进入“开放”状态,优先保障服务可用性和持续运行,而非完全阻断访问。