
亚马逊云服务(Amazon Web Services,AWS)的美东-1区域(US-EAST-1,北弗吉尼亚)在太平洋夏令时间(PDT)10月19日23:49(北京时间10月20日14:49)出现故障,随后演变为大规模中断,总计影响142项服务,直到10月20日2:24(北京时间10月20日17:24)才恢复,波及了Disney+、Lyft、麦当劳App、Reddit、Robinhood、Perplexity与英国政府网站等。AWS随后表示,此次事故的触发点为DynamoDB DNS解析异常。
Amazon DynamoDB是AWS推出的全托管NoSQL数据库服务,专为高可用性与高性能应用设计。DynamoDB DNS解析异常,意味着AWS服务器无法正确将DynamoDB的服务名称解析为实际IP地址,即使DynamoDB本身仍在运行,其他服务也无法找到其位置,所有尝试连接DynamoDB的AWS内部系统都会失败或延迟。
在DynamoDB无法被访问时,依赖DynamoDB的EC2子系统开始瘫痪,进一步导致Lambda、CloudWatch与SQS等服务受到连锁影响。事实上,根据AWS的统计,总计有142项服务被波及,涵盖DynamoDB、RDS或Redshift等数据库,EC2、ECS、Lambda、Glue等计算服务,VPC、NLB、CloudFront等网络与负载均衡系统,以及监控与事件系统、AI服务到各类企业应用。
此外,US-EAST-1不仅是AWS最早建立的区域,也是全球规模最大、最核心的区域。它汇集了许多全局控制平台与管理后端,例如身份与访问管理(IAM)、CloudFormation、CloudFront、Route 53、Lambda@Edge及DynamoDB Global Tables等。部分全局性功能也通过US-EAST-1进行协调,使其不仅影响该区域用户,还会波及依赖该区域端点的全球服务。
因此而受到牵连的AWS用户或服务包括Disney+、Lyft、Ring、麦当劳App、纽约时报、Reddit、Robinhood、Snapchat、T-Mobile、英国政府网站、劳埃德银行集团、加密货币交易平台Coinbase,以及Perplexity的AI服务等。
此外,连亚马逊内部的关键工具也停摆,无论是仓储、配送还是司机等员工都被迫停工;供第三方卖家管理业务的Seller Central也无法访问。
总计有超过2000家企业受到影响,至少有810万条问题报告,其中190万条来自美国、100万条来自英国,以及近42万条来自澳大利亚。
根据市场调查机构Statista今年第二季度的统计,AWS是云基础设施的最大供应商,市场份额为30%,领先于微软Azure的20%与谷歌云的13%。