在今年9月底,韩国国家信息资源管理院(National Information Resources Service,NIRS)的数据中心发生严重火灾,导致韩国政府近三分之一的信息服务系统停摆,迄今仅恢复五成,还造成大量公务资料损毁。
这起事故除了暴露电子化政府的弱点,也为全球IT基础设施的安全性带来一系列重要教训——从锂电池不间断电源系统(UPS)的配置与管理,到数据中心消防设施,以及备份与恢复架构的建设与管理等,都需重新审视与调整。
UPS锂电池起火致灾
NIRS负责管理约1600个政府部门的信息系统与服务,总部位于大田,另在光州与大邱设有分部,此次事故发生在NIRS大田数据中心的5楼。
火灾发生于2025年9月26日晚上8点15分左右,大田当地消防部门于8点20分接到NIRS报案,随即出动消防人员与消防车前往灭火。10小时后,即9月27日上午6点30分初步扑灭火势,但8点过后又复燃,直到当天傍晚6点才彻底扑灭,整起火灾历时约22小时。
9月27日举行的紧急记者会上,韩国中央灾难安全对策本部次长兼行政安全部次官金敏载(Kim Min-jae)解释,事故起因于UPS电池搬迁作业,当时13名外包商正在数据中心5楼更换UPS锂电池,计划将卸下的电池运至地下1楼,但其中一组已卸下的电池突然起火,引发火灾。
锂电池灭火的难题
这场火灾之所以耗时22小时才得以扑灭,主要原因在于锂电池本身的特性以及NIRS数据中心的UPS配置。
美国电池储能系统制造商EticaAG公司于10月6日就此事件发表的博客文章指出,锂电池火灾在灭火方面存在极大困难。锂电池起火属于热失控(thermal runaway)现象,即温度升高引发电池内部出现不受控的持续化学反应,导致温度再次升高,进而起火或爆炸。
锂电池起火后,不仅燃烧温度高于传统铅酸电池,还会产生有毒气体。即使扑灭明火,电池内部的化学反应仍可能持续进行,从而反复复燃。此外,由于锂电池储能高,燃烧时间也更长,常规灭火手段难以应对锂电池火灾。
日本IT媒体Gigazine在9月30日的报道中披露了更详细的灭火现场情况。火灾发生8小时后,消防人员于9月27日凌晨3点20分左右使用云梯车砸毁机房窗户与内墙,成功排出有毒烟雾。但机房布局又给灭火工作带来阻碍,据报道,数百组电池堆放在机房中,电池与服务器之间的距离仅60厘米,而韩国消防协会要求至少间隔90厘米,因此造成灭火时的两难局面。
当前数据中心普遍使用的二氧化碳灭火系统(如FM-200环保气体灭火系统),对锂电池这类火源效果有限,必须大规模洒水浇灌该区域,或将电池浸入水中冷却;但大量洒水又会导致邻近服务器损坏。这迫使消防员初期仅尝试使用少量洒水配合二氧化碳气体灭火,从而影响了灭火效率。
受影响的政府业务与服务
此次火灾造成的损失,可从设备直接烧毁以及线上业务服务停摆两个方面进一步审视。
火灾发生时,由于空调与除湿系统中断,机房温度升至160摄氏度以上。为防止服务器过热受损,NIRS管理单位决定暂停该数据中心所有系统的运行,结果导致647个韩国政府线上业务系统中断。
火灾结束后清查显示,共有384组UPS电池及电池周围的740台服务器烧毁。受此影响,在火灾期间关闭的647个线上业务系统中,有96个系统完全损毁。
因火灾关闭的线上业务系统中,436个为公共服务系统,211个为政府内部业务系统。按重要性划分,韩国政府将其线上服务系统分为四个等级,此次停摆的系统中,一级系统38个、二级系统86个、三级系统294个、四级系统229个。
其中对全国运作影响较大的服务包括:用于民事登记、税务文件及政府通知等服务的Government24门户网站;韩国邮政运营核心的邮政与物流服务系统;119紧急救援服务定位系统(用于消防与救护单位定位呼叫位置与调度);以及用于政府与金融服务登录验证的数字身份与凭证验证平台。
此外,还包括韩国政府Onnara电子公文签署系统、KONEPS政府采购招标系统、G-Drive政府在线文件存储系统、海关通关系统、在线警政案件登记系统、在线邮局购物中心,以及用于支付儿童保育费等的“国民幸福卡”服务。
缓慢的恢复工作
韩国行政安全部次官金敏载在火灾当天(9月27日)的紧急记者会上说明,韩国官方采取的恢复对策是优先恢复数据中心的冷却系统,然后逐步重启服务器,先行恢复邮政、银行与快递等重要服务。行政安全部也在同日上午发布紧急通知,告知政府服务受限,并要求相关机构延长纳税与文件提交期限,直至系统恢复正常。
据行政安全部称,截至9月28日上午7点,超过50%的网络设备已恢复正常,核心安全系统已有99%以上恢复,相关767台设备中,763台已恢复运行,未受火灾影响的2至4楼系统也于28日陆续重启。
在被迫关闭的647个线上业务系统中,据行政安全部9月29日说明,完全损毁的96个系统需耗时4周重建;其余551个未直接受损的系统,也因国家综合运行平台系统(National Total Operating Platform System,nTOPS)受损停用及现场清理尚未完成,恢复速度十分缓慢。最初72小时内(至9月29日),仅有46个系统恢复。
截至9月30日下午2点,停摆的647个线上业务服务中已恢复91个,占总数13.5%。最重要的38个一级系统中,已有21个恢复,占比55.3%。
在9月30日下午的记者会上,行政安全部次官金敏载解释,NIRS通过nTOPS系统管理这647个系统。nTOPS服务器并不在发生火灾的5楼,而是在6楼另一间机房,但因数据中心整体断电,该系统部分受损,虽非直接损坏,但暂时离线无法运行。韩国政府今年才开始测试nTOPS备份系统,预计12月才能全面启用,目前尚无法投入使用。
由此可见,原本为便于集中管理而建设的nTOPS系统,此时反而成为单点故障源,一旦失效,便连带影响大量其他系统的运行。
另一方面,近半数受影响系统(330个)位于发生火灾的大田数据中心5楼,该楼层仍处于断电状态,清理工作尚未完成,拖慢了恢复进度。行政安全部长兼中央灾难安全对策本部负责人尹浩正(Yun Ho-jung)前一天在国务会议上表示,目标是在10月12日完成火灾现场清理,随后依次恢复并重启受损机房。
金敏载表示,常用的Government24等政务服务已基本稳定,但房地产交易、社会保障信息系统部分功能仍中断,需民众亲自前往各地办事机构手动办理。尹浩正也提醒,可能出现冒充政府机构、与火灾相关的短信及网络钓鱼诈骗,呼吁民众保持警惕。
参差不齐的系统备份情况
到次日(10月1日)上午,恢复的系统增至98个,占总数15.1%;当天下午4点恢复系统略增至101个,但恢复的一级系统仍为21个,未有进一步进展。
在10月1日中央灾难安全对策本部说明会上,韩国行政安全部(Ministry of the Interior and Safety,MOIS)进一步说明受影响系统的备份与容灾情况。据NIRS统计,在关闭的647个线上业务系统中,47个系统具备服务器主机或存储层级的灾难恢复系统(前者27个,后者19个);352个系统每日备份,并传送至光州数据中心保存;剩余248个系统仅按月备份,月底才将备份传送至光州存储。
也就是说,在停摆的647个系统中,62%(399个)具备灾难容灾或每日备份,相对容易恢复服务;其余38%仅有月度备份,且部分系统的最后一次备份是在8月31日,这意味着即便通过备份副本恢复系统,也会损失整个9月的数据。
最大受灾对象:G-Drive政府文件存储系统
在10月1日的记者会上,韩国行政安全部还宣布一项令人震惊的消息:在大田数据中心火灾中完全损毁的96个系统中,95个可通过线上或离线备份恢复,但G-Drive政府文件存储系统因无外部备份,无法恢复。
G-Drive是韩国政府公务员专用的云端在线硬盘,“G”源自“政府(Government)”之意。该服务于2017年推出,旨在为公务员提供安全的在线共享文件存储空间,每位公务员分配30GB存储空间,可随时上传、检索文件、照片等资料。行政安全部发布的G-Drive使用指南建议将所有工作资料存储在G-Drive上,而非办公室个人电脑中。
截至去年8月,韩国全国超75万名公务员中,约12.5万人(另有19.1万人的说法)注册使用G-Drive,使用率约17%,覆盖74个政府部门,存储数据量达858TB。公共服务局局长林正圭(Lim Jeong-gyu)在10月1日记者会上表示,由于G-Drive未进行外部备份,所有存储资料均已丢失,判断无法恢复。
至于G-Drive未进行外部备份的原因,《中央日报》引述行政安全部官员说法称:“G-Drive容量大、性能低下的存储结构不允许外部备份”;《朝鲜日报》引述的说法也类似:“G-Drive容量巨大,无法建立备份系统”。
由于韩国各政府部门引入G-Drive的程度不一,受影响情况也不同。受灾最严重的单位是唯一严格执行行政安全部指示、将所有公务资料存储在G-Drive上的人事管理部;相比之下,较少使用该服务的政府政策协调办公室则未受明显影响。
这也造成一种悖论——越严格执行规定、越深度使用G-Drive的单位,在此次事故中反而遭受更大损失;而未遵循指示、很少使用G-Drive的单位却安然无恙。
《韩民族日报》引述人事管理部官员说法,考勤、晋升等人事资料由NIRS光州数据中心独立的e-Person系统管理,但其他工作业务资料均存储在G-Drive上。由于G-Drive损毁,该部8年来的所有工作资料全部丢失,包括内部会议资料、国会文件、公务员个人信息、人事认证资料与奖惩记录等。
G-Drive的损毁不仅导致人事管理部运作陷入停滞,还可能影响本月的国会审计工作,无法提交国会要求的文件。该部表示正尝试通过其他渠道恢复部分资料,包括过去一个月保存在个人电脑上的本地文件、电子邮件与纸质记录等。
此外,进入正式审批流程的官方文件也会另行存储在Onnara电子公文签署系统上。虽然该系统也在火灾中受损,但拥有备份,一旦系统恢复,即可取回这些资料,借此恢复部分在G-Drive上丢失的原始数据。
善后与追责
接下来几天,受影响的647个系统仍以缓慢速度逐步恢复:10月2日恢复系统达112个(恢复率17.3%),10月4日增至115个(17.8%),10月5日达134个(20.7%)。
进入10月第二周后,恢复速度有所加快。中秋假期期间,抢修团队一口气恢复47个系统。截至10月7日下午6点,已有163个系统恢复运行(恢复率25.2%);10月10日恢复系统达217个(恢复率30.6%)。
火灾发生三周后,据韩国政府最新消息,截至10月20日中午,已恢复375个系统,恢复率终于超过50%(52.9%)。
对于火灾中完全损毁的96个系统,行政安全部在10月2日说明的处理对策是迁移至NIRS大邱分部数据中心另行重建,包括退伍军人事务部网站、e-People国家民事请愿门户网站、国家法律信息中心以及Onnara电子公文系统等。最初预计两周内完成重建,但经进一步评估后认为至少需四周时间,目标争取在10月28日前完成相关作业。
为加快恢复速度,韩国政府将动用预备资金,行政安全部已于10月1日与财政部商讨资金事宜。
与此同时,韩国检警也展开调查行动。据《中央日报》10月1日报道,大田地方警察厅宣布逮捕4名火灾相关人员,包括1名NIRS官员和3名火灾发生时负责监督电池迁移工作的外包人员。调查人员此前已讯问12名证人,包括迁移项目负责人及其他现场工作人员。
《韩国时报》次日(10月2日)报道,警方突击检查了NIRS及3家承包商,调查火灾相关疏失情况。
火灾次日,今年6月新上任的韩国总统李在明(Lee Jae Myung)向国民公开道歉,批评紧急恢复机制缺失,并指出两年前曾发生类似大火导致线上服务中断事件,但政府竟未建立完整应对机制,对此表示震惊,承诺将彻查并追究相关责任。
韩国数字政府创新办公室也承认,G-Drive缺乏外部备份是个错误,誓言将建立不会再出现此类问题的新系统。
从目前官方信息与各界评论来看,此次火灾事故可归因于三项显而易见的疏失,这些疏失环环相扣,共同导致严重后果。(报道未完,敬请关注:解析韩国政府数据中心大火三项关键疏失)
韩国NIRS大田数据中心火灾事故时序
9月26日 ● 承包商拆卸UPS电池时于20点15分引发火灾,当地消防部门于20点20分接获火灾通报,灭火工作延续至次日 ● 紧急关闭647个线上服务系统
9月27日 ● 火灾于上午6时30分初步扑灭,但8时复燃,至傍晚18时彻底扑灭,共历时22小时
9月28日 ● 核心系统部分重启 ● 未直接受灾楼层重启 ● 韩国总统李在明就灾情公开向全国致歉
9月29日 ● 恢复46个受影响系统(恢复率7%)
9月30日 ● 恢复91个受影响系统(恢复率13.5%) ● 一级系统过半恢复(38个中的21个) ● 总统李在明下令检查政府网络基础设施
10月1日 ● 恢复101个受影响系统(恢复率15.6%) ● 官方确认G-Drive服务完全损毁无法恢复 ● 警方逮捕4名火灾涉案官员与承包商员工 ● NIRS大田数据中心停车场车辆起火
10月2日 ● 恢复112个受影响系统(恢复率17.3%) ● 警方突击检查NIRS与3家承包商
10月4日 ● 恢复115个受影响系统(恢复率17.8%) ● 1名参与灾后修复的官员跳楼轻生
10月5日 ● 恢复134个受影响系统(恢复率20.7%)
10月7日 ● 恢复163个受影响系统(恢复率25.2%)
10月10日 ● 恢复217个受影响系统(恢复率30.6%)

