这个“一切都通过IP实现”的世界,对网络安全和运营商提出了特殊的挑战。
北美史上最大的互联网中断事故之一
2024年7月8日,经过为期两年的独立审查,加拿大广播电视和电信委员会(CRTC)发布了一份审查报告。报告显示,2022年7月8日,加拿大第二大互联网服务提供商Rogers通讯公司遭遇的全国性互联网中断事故由人为失误造成,而管理和系统缺陷使情况更加恶化。
2022年7月8日的Rogers营业厅
2022年7月8日凌晨,Rogers的IP核心网络发生重大服务中断,影响了其在加拿大各地的无线和有线服务。此次断网事故持续了26个小时,超1200万客户无法连网。在此期间,有线电视、手机和固定电话服务均无法使用,人们甚至无法拨打911紧急电话。互联网中断事故影响了加拿大的公共安全、政府服务、交通、医疗、银行、企业和零售支付等机构的运作,给加拿大带来了约1.42亿美元的经济损失,是北美历史上最大的互联网中断事故之一。
互联网中断原因
报告显示,断网事故由Rogers的IP网络内的分发路由器配置错误造成:工作人员删除了将信息导向目的地的路由过滤工具(Filter-Policy),导致大量IP路由信息涌入核心网络路由器,几分钟内,核心网络路由器由于超载而崩溃。若Rogers为核心网络路由器配置了过载保护,规定路由器可支持的IP路由数据的最大可接受量,那么断网事故本可避免。当系统崩溃时,用户流量无法再被路由到正确的目的地,移动电话、固定电话、商业有线连接和911紧急服务都停止了运行。
算法误判也是导致断网事故的原因之一。断网前几周,Rogers正在进行7个阶段的网络升级,断网发生在升级的第6阶段。Rogers最初将7个阶段的风险评估为“高”,然而,随着前几个阶段配置更新成功完成,风险评估算法将第6阶段的风险级别降至“低”,员工无需对配置更改进行额外审查,无需通过更高级别的审批,也无需进行实验室测试,这违反了行业规范。
Rogers网络架构拓扑
无线网络和有线网络的流量都通过一个公共IP核心网络传输,该网络连接到Rogers提供服务的用户,例如互联网接入、电话服务、911紧急服务和公共警报服务。
无线和有线服务共享同一网络是许多互联网服务提供商的常见做法,旨在平衡成本和性能。Rogers的无线和有线网络共享同一个IP核心网络,导致此次断网的影响范围非常大,所有服务灾难性地中断。
互联网服务恢复慢的原因
断网期间,多伦多居民涌向星巴克上网
在断网事故发生长达26小时后,Rogers才恢复互联网服务。恢复工作时间漫长由好几个因素导致,其中最主要的因素是Rogers公司内部无法正常通信。
网络恢复工作受阻的第一个原因,是Rogers对网络基础设施站点管理不当。当IP核心网络出现故障时,工作人员无法远程访问Rogers系统。此外,Rogers并未为其网络运营中心和其他关键远程基础设施站点提供来自替代服务提供商的冗余连接。工作人员无法远程操控,不得不实地手动获取访问权限,导致网络恢复延迟。
网络恢复工作受阻的第二个原因,是Rogers工作人员之间的沟通受阻。显然,Rogers员工都用Rogers的网络进行通讯。当无线和有线网络都中断时,Rogers的应急响应管理人员在故障初期无法有效通信。Rogers不得不将其他互联网服务提供商的SIM卡发送至其远程站点,使员工能够通过无线连接相互通信。
网络恢复工作受阻的第三个原因,是故障排查的时间过长。在网络中断长达14小时内,工作人员都无法访问故障路由器的错误日志。此外,Rogers在中断当天的维护时段内完成了多项设置更改,这不利于恢复工作。两个因素叠加,导致Rogers在网络中断的最初几个小时内误诊了故障原因。而当明确了原因后,恢复工作就有条不紊地开始了,服务也逐步恢复了。
Rogers采取的措施
在2022年7月发生互联网中断后的几个月里,Rogers采取了一系列措施来解决网络中断事故暴露出的问题。
第一个措施是改进网络架构中的缺陷。Rogers在核心网络路由器的配置中增加了过载保护机制,以防止IP路由数据泛滥,并部署了单独的物理管理网络,以进行故障排除。此外,Rogers还从第三方服务提供商处为其网络运营中心和其他重要的远程基础设施站点部署了备份连接,并购买了有助于验证路由器配置更改的工具。
第二个措施是将无线网络和有线网络的IP核心网分开。Rogers为无线网络部署了一个新的IP核心网,现有的IP核心网将继续为有线网络服务。当一个IP核心网遇到故障时,另一个IP核心网将不受影响,继续正常运行。目前,这项工作尚未完成。
第三个措施是改进管理流程。断网事故发生后,Rogers对其管理流程进行了多项改进,包括引入新的风险评估算法、改善网络运营和工程团队之间的协作、对计划中的网络配置变更进行额外的实验室测试等。
第四个措施是改进事故管理流程。Rogers制定了应急管理指南、实施故障期间警报优先级排序解决方案、在新变更不成功时自动回滚到以前的配置等。Rogers还为应急响应团队配备了第三方服务提供商提供的备用通信设备,以在中断期间保持通信。
网络的融合不可避免地会导致不同的服务在运营商的IP核心中相互碰撞。公共交换电话网络(PSTN)语音网络、控制呼叫和漫游的SS7信令协议或911紧急服务的路由,竟然会同时受到IP网络中断的影响,这在过去是不可想象的。在过去,这些协议和功能占据着物理上不同的网络,并受到保护,以免受到损坏。
然而,要降低成本和复杂性,提高性能和可扩展性,运营商将传统服务和网络迁移到了IP主干网上。随之而来的风险就是,互联网中断具有“传染性”,导致其他传统业务的同时停摆。从加拿大互联网中断事故中能看出,这个“一切都通过IP实现”的世界,对网络安全和运营商提出了特殊的挑战。
来源:Internet Society,CRTC官网,Global News,CBC,BBC
编译:陈茜
责编:余秀