在当今IT服务的业务环境下,服务持续运作的能力,在很大程度上决定了IT服务竞争成败。对那些从事IT 服务的单位而言,IT 服务持续运作的能力则成为决定该单位竞争优势的直接因素。尤其是在发生重大灾难的情况下,如何确保IT 服务运作的持续性,是值得IT服务管理人员特别关注的问题。
服务持续性的定义
IT服务持续性管理(IT Service ContinuityManagement)是指负责预防灾难发生、增强IT 基础架构的恢复能力和容错能力,并在灾难发生后迅速恢复IT服务正常运作的服务管理流程。
这里所说的灾难是指严重影响IT 服务正常运作甚至导致IT 服务中断的外来事故,如地震、火灾、恐怖袭击、网络恶意攻击、大范围电力中断等。预防灾难的发生和灾难发生后实施恢复方案是IT 服务持续性管理的主要任务。
系统服务持续性管理过程
中国人民大学网络与教育技术中心是中国人民大学信息化建设的归口管理部门和主要承担者,业务职能主要涵盖电子校务、网络平台、校园卡、多媒体教学服务和视频服务等内容。一旦这些业务由于重大事件而停止运行,短时间内不能恢复,将使中国人民大学网络与教育技术中心各项业务中断,其影响将是灾难性的。因此随着学校对IT的依赖性逐渐加重,网络与教育技术中心领导也越来越重视IT服务持续性发展。
1.工厂服务持续性管理的组织结构
中国人民大学网络与教育技术中心目前共有中心主任一名、副主任3名,下设9个科室。
中心主任负责统一领导和指挥突发灾难,制订、审议有关政策、策略和制度并直接负责重大灾难的处置,根据突发灾难处置工作需要,向上级领导请示、汇报。主管副主任在中心主任领导下,负责执行突发灾难处置方案的具体指挥,协调实施技术部门及业务部门的具体处置工作。
各个科室接受突发灾难的预警信息,负责突发灾难的故障定位和初始保护工作;负责突发灾难的损失评估、发展态势评估、恢复效果评估等工作;负责突发灾难的设备、场地、人员、工具、后勤等资源保障的管理和协调工作;负责突发灾难前的资源统一准备和事件后的资源回收;协助主管副主任进行突发灾难和灾难恢复的处置,并负责核查业务功能,追补数据等职责;在业务人员的协助下,负责具体突发灾难和灾难恢复的技术处置工作;根据主管副主任的要求,预先通知重要用户和相关单位;提供技术和业务支持,接受用户的询问和投诉,并向用户解释说明。
2. IT服务持续性风险管理方法(1)定义范围:明确IT服务持续性管理的范围,对责任人和相关人员的职责和工作方法、治理标准、风险管理原则和方法及业务影响的准则和方法等问题进行了明确的定义。
(2)业务影响分析:分析IT服务对业务的影响,明确哪些地方需要重点实施IT服务持续性管理,有助于实施风险评估。
(3)风险评估:帮助识别IT服务运行中存在的薄弱环节和潜在的风险,避免业务中断的发生。
(4)制定IT服务持续性计划:用最低的成本将IT 服务运行的风险控制在最低可接受水平,具体包括风险降低措施的制定和灾难恢复方案的选择。
(5)具体实施IT服务持续性计划:当某项业务,中断服务后,采取相对应系统故障恢复计划,或进行人工恢复。
(6)运作管理:在完成IT服务持续性计划和实施后,进入日常管理阶段,包括培训、定期评审、定期日常变更、争取领导对IT服务持续性管理质量的认可和保证。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。