行业观察
日前,移动通信网络行业发生了一起重大事故!
据外媒报道,欧洲电信运营商“巨头”沃达丰集团表示,其在德国的移动通信网络于当地时间11月23日下午13:50突然出现大面积故障,造成柏林、汉堡、慕尼黑、科隆、法兰克福和其他城市共计超过10万手机用户无法建立语音连接和数据连接(2G、3G、4G的数据和语音服务都受到宕机影响),直到17:00才恢复正常。
根据沃达丰集团最新一期财报,沃达丰德国子公司约有3000万移动通信用户。此次故障中,有多达超过10万用户无法打电话和移动上网,所谓“众口能铄金”,超过20万个睁到最大的愤怒圆眼和超过10万个张到不能再大的嘴巴,以“坏事传千里”之功力,使得该公司的品牌形象严重受损,一代巨头瞬间遭受几乎“香消玉殒”。
在这个移动通信就像是水和电甚至像是空气一样的时代,更令上述超过10万的受影响用户极其抓狂的是,从13:50到17:00一共长达190分钟(11400秒)的时间,业务才全部恢复。
此次严重故障是由什么因素导致的?沃达丰反馈,网络问题是由部署于慕尼黑、法兰克福、柏林三地的“failure of control equipment”造成的。“failure of control equipment”就是“控制设备宕机”。从“控制设备”一词,我们可以想到“控制面”,再进一步考虑到外媒所报道的此次故障所波及的地域之广大、所影响的用户之众多,可以判断是核心网控制面出了严重故障。
核心网,在2G、3G、4G网络中所扮演的角色,就是“大脑”。一个动物要是大脑死亡了,整个身体就都死亡了;同样类比地,网络的“大脑”——核心网挂了,整个网络就停摆了,所以造成了上述故障具有两大鲜明特点:一是波及的地域广大;二是整个故障存在的时间很长——按照电信业务可靠性计算公式以及“99.999%可靠性”这一基本要求,一年中的业务中断的时间加起来不得超过315秒,而这次一次就断了11400秒!
所以德国沃达丰这个事件,在5G新基建、5G+千行百业发展得如火如荼的当下,亟需及时地引起业界的深刻反思——①是否普遍足够重视5G核心网的可靠性?②万一5G核心网一旦出现了重大故障,能否让行业客户的业务“零”中断(比如5G+政务/制造/交通/金融/电力等要求7×24在线)?若不能,如何及时补救?
敲响了“5G+千行百业”的巨大警钟
这一起严重的事故,使得全球其他所有移动通信网络运营商在为德国沃达丰感到同情和惋惜的同时,也被吓出一身的冷汗,尤其是那些正在规模部署5G网络的数百家运营商更是深感“如履薄冰”:
一是由于核心网是移动通信网络与IT深度融合的第一站,软硬件解耦且软件运行于由通用硬件构成资源池的虚拟化核心网,其可靠性在德国沃达丰此次发生的重大事故中表现得甚为脆弱,说明除了硬件,软件能力更显重要。德国沃达丰和其他运营商虽然目前比较重视面向ToC领域的5G网络的可靠性,但是截至目前在相关方面的投资趋于谨慎(尤其是在对软件可靠性的投资方面),一旦某一天万一发生上述德国沃达丰之类的重大事故,这几年下大力在大众消费者心中建立起来的5G高端品牌形象很可能顷刻崩塌,极不利于后续5G ToC发展。所以,这个事件说明对于5G核心网可靠性的投资绝对不只是单纯的硬件投资,而应该持续投资于对软件可靠能力的增强。
二是更进一步地,在5G时代,移动通信网络所承载的将更多(公认是80%)是面向政企客户的ToB类业务,对于ToB领域而言,“保障5G网络可靠”是最基本的要求,是5G进入千行百业必须跨越的“门槛”,是“5G+千行百业”最为关键的前提,一旦5G核心网出现严重故障,带来的各方面损失都将是上述德国沃达丰事件的N倍(N→+∞)——5G(含B5G)将来会被用在电力、金融、政务、工业4.0(比如智能制造)、(网路辅助的)自动驾驶、远程医疗等关键领域,一旦5G核心网停摆,这些政企业务就会瞬间中断,由此造成的后果将难以想象,会给社会经济甚至国家安全带来重大损失。
截至目前,业界对于5G网络的“安全性”以及“安全防护能力提升”的公开讨论有很多,但几乎没有对于5G网络(尤其是面向ToB领域的5G核心网)“可靠性”的公开讨论,说明对于5G核心网的可靠性尚未引起普遍化的重视。所以,德国沃达丰事件对于5G时代所敲响的巨大警钟就是:对于事关商业、经济、社会和国家安全的5G新型基础设施的建设运营,除了要重视做好网络安全防护外,更需加强对于运行可靠性的深刻认识,全力避免因可靠性问题影响运行效率和安全性。所以由此可以说,安全性是建立在可靠性的基础之上的,不可靠才是最大的不安全!
构筑起5G核心网磐石泰山般可靠性
坚者如磐石,稳者如泰山。在上述的5G新型基础设施可靠性中,5G核心网的可靠性显得最为重要,因为它就是整个5G网络的“大脑”所在——5G网络最为核心且对5G确定性能力负责的正是5G核心网,在5G网络端到端的质量保障当中,5G核心网承担了对于全局资源的集中控制、调度和管理,负责管理全局的网络拓扑、所有的接入信息、所有的用户数据以及所有的行业业务需求;所以一旦5G核心网(其控制面集中部署于大区及省级数据中心)出现故障,受到影响的范围将会极大。
“如何保障5G核心网的绝对可靠”是一个巨大的系统工程问题,但是仍然遵循“可靠性”相关的基本理论。
可靠性(%)=-t÷(e的MTBF次方)。其中,t为观测的时间间隔,MTBF为平均故障间隔时间。可见,可靠性仅与MTBF有关,电信级可靠性要达到99.999%,意味着一年的业务中断时间不超过315 s,落实到系统上即“可用度”。
可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR为平均故障修复时间。可见,提高(5G核心网)可用度,就要:①增加MTBF,即提高系统的容错能力,保障长时间稳定运行;②减小MTTR,即在一旦突然出现故障之后,能够快速发现故障并且瞬间(秒级)排除故障。
综上,要保障5G核心网的绝对可靠,就要做到:尽量稳定运行、不出故障,而一旦发生故障能够瞬间精准定位故障并秒级排除故障。
很显然,这其中,最关键的就在于“能否秒级排除故障”。因为不怕一万、就怕万一。万一5G核心网出现重大故障,能否做到让用户/客户“零”感知?
目前,面向5G核心网可靠性,业界在网元级容灾(提升VNF可靠性)、单个数据中心(DC)内容灾(比如硬件/资源池/多可用区/等IT级容灾以及机房/机楼等非IT级容灾)、跨DC容灾方面均有解决方案。目前看来尚存在两大较显著的问题——软件能力不够高、跨DC容灾不够强。
(1)亟需更强软件能力
传统核心网设备采用先进电信计算平台ATCA硬件,通过硬件传感器检测及内部的软硬件耦合通知机制来保证故障检测的实时性和准确性(毫秒级)。在引入NFV对核心网进行软硬件解耦改造后,VNF的可靠性应不低于现有传统物理模块(功能)的可靠性。采用通用服务器后,应用层(软件)的可靠性不再依赖于底层构筑,VNF只能靠软件手段去检测是否出现故障,NFV云化网元通过软件机制实现故障检测为秒级,远低于传统核心网的毫秒级,所以从更好地保证整体网络的可靠性的角度,5G核心网亟需更加强大的软件能力,比如向无状态化、更强数据库、微服务、更鲁棒的VNF组网及部署架构等方向发展以便于弹性扩缩容并提升电信级服务可靠性与可用性。
(2)亟需解决跨DC容灾3大关键薄弱问题
“跨DC容灾”一直是业界一大难题。主要表现在以下几个方面。
● 跨DC的数据备份
要实现跨DC容灾,必须要实时进行用户上下文数据备份(比如存储用户签约数据、注册信息的UDM等主要数据库)。显然,这要求进行实时备份而且备份的数据越多越好以利于业务快速恢复。用户上下文数据变化快,使得备份难度大。业界目前采取的备份方式下,备份时间长(从而不利于一旦出现故障时备份到更多数据即不能保证数据备份的时效性与完整性)、数据量大(未经压缩)、对DC间链路的带宽要求很高(因为数据量大)。从而,现在亟需打造并部署能够对待备份数据进行压缩的解决方案,以在大幅降低DC间链路传输备份数据的带宽需求的同时,保证数据备份的时效性与完整性以保障业务恢复的“零”影响。
一旦5G核心网出现故障,就要瞬间运用备份到的数据去恢复,千万级甚至亿级用户的电信业务恢复,带来极大考验。主要体现在以下两方面。
● 找到备份数据
运用跨DC备份的数据去恢复用户的电信业务,第一步就是要找到用户的备份数据。所以可见,“能否快速找到”是关键之中的关键。
下图为5G核心网服务化架构,笔者在其中用红色框标准了5G核心网控制面两个极为重要的网元——控制层的AMF、数据层的UDM。
从上图,我们一眼就可以看出AMF的不可或缺性——是用户接入5G核心网的首个网元,是分组接入的一级关口,是提供5G网络服务的前提,在用户体验的保证上起着关键作用。从AMF的名称“接入和移动管理功能”更是能感受到其极端重要。
UDM则是5G SA网络用户的统一数据管理平台,主要用于存储用户的签约数据、注册信息,给AMF下发签约数据,存储用户当前服务的AMF地址等,提供用户签约数据访问、位置登记等功能。UDM一旦发生重大事故时,会导致大范围的业务中断,影响巨大。
在5G核心网出现故障后,当用跨DC备份的用户上下文数据去恢复用户的电信业务时,千万级乃至亿级数量的用户(将来“万物互联”后还可能是几十亿级的设备)同时接入AMF和UDM,势必有瞬间产生信令风暴的可能——如果在故障发生前备份了所有用户的上下文数据,则用户新接入时不用去UDM取签约数据,业务恢复时,信令就主要冲击在AMF上;否则,在业务恢复时,信令将冲击到UDM网元——由于UDM主要能力在于数据存储,而信令能力弱,从而很容易引发过载。
一旦由此出现信令风暴,将会导致网络瘫痪,从而引发更多问题,何谈“业务恢复”?电信业务有状态的特点,不同于IT业务的数据备份,还需要更新上下文相关的隧道、通道、链路层的多层网络信息,需要超越标准流程,更新周边网络的信令链路、路由通道等。目前,业界采用的是通用数据库,以海量广播报文寻找用户备份数据,会产生信令风暴。从而,现在亟需打造并部署能够避免路由广播、不会产生信令风暴的可实现“一步到位找到用户备份数据”的解决方案。
● 恢复数据状态
找到了用户的备份数据,接下来就是恢复数据状态从而恢复用户的电信业务。在这一个非常重要的环节中,更是不能出现故障,否则前面的环节全都会白做,功亏一篑。目前,业界的解决方案是从单VNF恢复数据,会出现CPU单点过载,容易出现二次故障。从而,现在亟需打造并部署能够从多个VNF恢复数据的方案——于其中,通过多个VNF的均衡处理来大幅降低单VNF压力。
深谋远虑未雨绸缪力保未来网络可靠
在5G时代,2G和3G将逐步减频退网,最终很快形成4G、5G长期共存的格局,共同服务于“万物智联”(比如基于4G LTE的NB-IoT),所以现在宜未雨绸缪,布局网络结构简化、网络资源可灵活动态共享、软件平滑演进的融合型核心网,并布局4G网络高可靠容灾与恢复方案,同时高度重视软件能力加固,增加预算大力持续投资核心网软件可靠能力,全力保障未来网络的高可靠。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。