最新消息:关注人工智能 AI赋能新媒体运营

解析韩国政府资料中心大火三项关键疏失

科技热点 admin 浏览

今年9月底,韩国国家信息资源管理院(National Information Resources Service,NIRS)的数据中心发生严重火灾,导致韩国政府近三分之一的信息服务系统停摆,还造成大量公务数据损毁。

虽然韩国官方尚未提出正式调查报告,不过从目前官方消息与各界评论,我们可以将这次火灾事故归因于三项显而易见的疏失,这些疏失彼此环环相扣,共同导致严重后果。

第一层疏失,是超期使用UPS锂电池。如果依照原厂保修周期定时更换电池,或许根本不会发生这起火灾。

第二层疏失,是NIRS引进基于锂电池的UPS,但未同步采取足以应对锂电池风险的数据中心架构与运维措施,导致锂电池起火时未能有效控制灾情。

第三层疏失,是NIRS备份与容灾机制不足。当大田数据中心因火灾而关闭服务时,未能由容灾系统及时接管,或通过备份迅速恢复。

前述三个环节,若有其一能发挥作用,便不至于造成今日这般严重后果。现实中这三层机制却接连失效,最终酿成这起导致韩国政府三分之一信息服务瘫痪、迟迟未能恢复的事故。


抢修中的韩国政府线上服务

韩国政府在GOV24政府服务入口网站上发布的NIRS大田数据中心火灾事故恢复情况。截至10月20日中午12时,709个系统中已恢复375个,恢复率达52.9%。


电池超期使用

这次火灾的起火源是一组LG Energy Solution(LGES)制造的锂电池。据韩国行政安全部说法,LGES在2012到2013年间为大田数据中心的UPS提供锂电池,这些电池早已超过原厂10年保修期。原厂虽曾建议更换,但这些电池仍在今年6月通过NIRS检查并继续使用,最终让老化的锂电池酿成巨灾。

事实上,NIRS超期使用设备是个老问题,2023年时便曾因此引发严重事故。韩国审计监察院(Board of Audit and Inspection,BAI)在9月29日发布的报告指出,2023年11月发生的大规模网络故障,导致189个政府行政信息系统瘫痪的事故,便是NIRS的路由器老化失效所致。而BAI将超期使用设备的原因归结为预算问题,以致NIRS在2022年调整了关键IT设备的更换周期,将原本的4至5年延长到6至9年。若以旧标准为基准,NIRS恐有三分之一设备均已超期使用。

数据中心应对锂电池风险能力不足

此次事故发生之初,许多人都认为数据中心UPS不应使用锂电池。但事实上,锂电池在当前数据中心UPS架构中已有相当比重,且仍在迅速扩大。据市场调研机构Frost & Sullivan两年前的数据,锂电池在数据中心UPS电池中的市场份额在2020年已达15%,预计到2025年将增长至38.5%。

凭借体积小、能量高、寿命长、维护相对简单等优势,数据中心UPS使用锂电池已是难以逆转的趋势。火灾风险疑虑可能会暂时减缓某些单位引进锂电池的步伐,例如在大田火灾事故当天稍早,英国网络服务运营商Openreach便发布通知,要求承租的通信业者移除交换机房中的锂电池,仅允许使用铅酸电池。

但AI应用对高容量、高密度的需求,最终仍会促使锂电池在UPS应用中的持续扩大。

既然锂电池的应用不可避免,关键便在于数据中心的架构能否承受锂电池失效的风险。回顾过去五年,全球已至少发生三起数据中心锂电池起火的严重事故,包括2021年3月欧洲云服务商OVHcloud斯特拉斯堡(Strasbourg)数据中心火灾、韩国SK集团C&C板桥数据中心在2022年10月的火灾,以及2023年3月法国Maxnod数据中心火灾等。因此,如何有效控制锂电池风险、采取适当预防对策,也成为近年来数据中心安全的一大重点。

但正如韩国总统李在明的质疑,不过两年多前,韩国才发生SK数据中心锂电池起火、影响数百万电信用户的前例。当时韩国政府内外曾有过许多强化数据中心锂电池使用监管的讨论,却显然未带来实质改变,NIRS依然重蹈覆辙。

NIRS大田数据中心的UPS配置架构缺乏应对锂电池的物理与热隔离设计——UPS与服务器设于同一机房,锂电池距离服务器机架仅60厘米,缺乏可减缓热传播的屏蔽机构,无法避免锂电池起火后的灾情蔓延。

美国电池储能系统制造商EticaAG对此的评论是:“这是一个高科技的基础设施,但安全容限却很低的典型案例。”

除此之外,外界也质疑NIRS的承包商在执行更换锂电池作业时,可能未遵守标准的断电程序。

效能不佳的备份与容灾机制

在这起事故中,即便电池老化、数据中心起火损毁,如果NIRS的备份与容灾措施得当,仍能依靠这道最后防线维持线上服务的存续,或在短期内恢复服务,不至于对终端用户造成严重冲击。

例如,一年前的2024年9月10日,阿里云新加坡数据中心也发生一起锂电池爆炸起火事故。虽然30多个小时后才扑灭,但阿里云成功通过容灾机制,即时迁移高可用性云服务,将对用户的影响控制在较低程度。

但这次韩国大田数据中心事故中,除了G-Drive外,数百项服务虽按重要性分别配置了容灾、每日或每月备份,却未能实现服务不中断或短期恢复的目标。即便是列为最高优先级、短暂中断就会造成重大影响、理应通过容灾机制维持服务不中断的一级系统,头三天也仅恢复其中一半(38个中的21个),显示容灾措施未能发挥应有作用,更不用说其他优先级较低的系统了。

这次受影响的647个系统中,除完全损毁的96个需较长时间重建外,其余系统仅暂时关闭,并未直接受损,理应在短时间内重启服务。但事故发生至今已过三周,仍只有约50%的系统恢复。以现代数据中心关键服务的恢复时间目标(RTO)标准来看,这是不合格的表现,也暗示实际受损情况可能比官方公开信息显示的更为复杂。

韩国官方其实早已注意到这个问题。审计监察院(BAI)去年的调查报告就指出,NIRS的容灾与冗余措施不足,指示NIRS为所有一级或二级高优先级系统建设灾难恢复系统,但这项要求显然并未落实。

缺乏保护的关键服务G-Drive

大田数据中心在备份与容灾机制方面最大的问题,在于G-Drive这项关键服务居然未配置任何外部备份,其脆弱程度令人难以想象。

G-Drive这类云盘服务的后台底层应是大型存储集群,具备承受个别存储设备或节点失效的冗余能力,但无法抵御火灾这类可能覆盖整个机房或站点的事故。原则上必须搭配远程复制(Remote Replication),定期将数据复制到异地站点作为备份或容灾;最不济也可通过磁带备份,再将磁带保存于隔离机房或建筑,从而在机房或站点级事故中保有可用于恢复的副本。但G-Drive在这方面完全缺失。

韩国官方提出的解释,如G-Drive容量过大、速度过慢以致无法备份等理由,在我们看来都是不成立的。G-Drive此次损失的858TB数据,无论以现在还是2017年该系统刚建设时的标准来看,顶多只是中等规模,并未大到无法备份的程度。事实上,对许多大型企业或服务商而言,PB级别的数据量都能实施备份。

即使使用效率较低的磁带进行备份,以目前最新、每卷18TB容量的LTO-10磁带计算,不到50卷磁带就能容纳这858TB数据;若回推到8年前系统建设之初,当时的LTO-8磁带也只需70余卷即可容纳800多TB数据(而且当时G-Drive总容量应远低于此)。此外,中大型磁带库也能通过多读写头同步作业,提供每小时数十TB的数据吞吐能力。只要制定好分批、分阶段的备份计划,将800多TB数据备份到磁带是可行的。若使用效能更高、基于磁盘并整合了重复数据删除功能的备份存储设备,还能更高效地处理备份工作。

我们推测G-Drive未配置备份的原因应该不是技术因素,而可能是在建设初期因经费有限与工期紧迫的双重压力下,尚未建好备份机制就被迫匆匆启用。而后在运营过程中,又受预算限制与官僚惯性影响,迟迟未能补上缺乏备份这一漏洞,最终造成机房起火、8年数据全毁、无法恢复的后果。

亡羊补牢的措施

事发这几周,已有多位专家与机构针对韩国这次数据中心火灾事故提出种种改进建议。我们总结起来,可归纳为以下两点:

首先,是数据中心的安全设计必须因应锂电池的引进而调整。

在法规与政策上,可参照建筑储能系统的固定式锂电池安全规范(如美国NFPA 855标准),规范数据中心的锂电池应用,明确锂电池的安装、使用、检查与寿命管理要求,承包商及相关人员也须接受锂电池管理与处理的培训。

在实务上,Uptime公司建议应避免采用分布式UPS架构(即将电池分散配置在个别机架内)。Everest Group、EticaAG、Uptime等机构均强调隔离锂电池的必要性,即应将电池集中设置于独立防火区域加以隔离,隔离区域需具备足够的耐火极限,与其他设备保持足够安全距离,并配备实时电池监控系统,以及引入针对锂电池的专用灭火系统。目前市场上已有一系列针对锂电池的防火抑制技术与产品,例如浸没式电池技术、持续冷却系统、中和有毒气体的系统等。

其次,是数据中心关键服务的分散化。鉴于大田数据中心一间机房起火即导致数百项政府关键服务中断,凸显了集中式设施的弱点。IDC认为,集中式设施虽能带来规模经济效益,但风险也高度集中;而分布式架构则能增强弹性并减少单点故障,建议分散数据中心位置以降低区域风险,并结合模块化与移动式数据中心技术,提供灵活配置与快速恢复能力。

总的来说,这次事故尽管冲击巨大,但我们应从中吸取教训,并将其视为重新审视数据中心架构的契机,以迎接全面到来的锂电池UPS时代。


近年全球数据中心重大锂电池火灾

?时间? 2021年3月9日至10日

?地点? OVHcloud斯特拉斯堡数据中心

?影响范围? SBG-2数据中心全毁,邻近SBG-1数据中心三分之一的机房受损,相关服务中断超过两周


?时间??2022年10月15日

?地点??韩国SK集团C&C城南市板桥数据中心

?影响范围??电气设备室受损,关闭3.2万台服务器,Kakao与Naver相关电信与网络服务中断


?时间??2023年3月28日

?地点??法国Maxnod圣特里维耶-叙尔穆瓦尼昂数据中心

?影响范围??数据中心与设备全毁,需彻底重建,当地网络服务中断


?时间??2024年9月10日至11日

?地点??阿里云新加坡可用区C数据中心

?影响范围??部分云服务间歇性中断


?时间??2025年9月26日至27日

?地点??韩国大田市国家信息资源管理院数据中心

?影响范围??数据中心5楼全毁,其余楼层部分受损,647个政府线上服务关闭

资料来源:iThome整理,2025年10月