近年来,新一代信息技术和人工智能的迅猛发展大大促进了信息技术与教育教学的深度融合,使基于泛在网络的智能化教学、管理与服务在院校普遍展开。为了满足院校教育信息化和智能化应用的需求,各院校都在将传统网络机房扩改建为集数据传输、交换、存储、计算、管理与服务等功能于一体的数据中心。数据中心是信息化智能化应用的数字化底座和基础资源,是院校信息化的数据中枢和算力载体,它不同于传统的网络机房,其网络带宽高、计算速度快、存储容量大、智能程度高,不仅设备类型和数量大大增加,而且支撑应用系统多、处理数据量极大,对环境、供电、技术、安全、运维等提出了更高要求[1]。传统机房的管理模式和手段已无法适应数据中心的运行要求,各院校迫切需要探索高效、可靠、安全、绿色的数据中心管理模式和方法。
院校数据中心管理现状分析
当前,多数院校的数据中心是在原有机房基础上扩建或改建而成的,面积一般在几百平方米不等,一般由主机房、辅助区、支持区、管理区等功能区组成,主要包括网络、计算和存储等相关软硬件系统,同时配有空调、UPS、消防、监控等辅助设备设施,主要面向全校信息化办公、教学、科研、行管和后勤保障提供网络、数据的管理与服务[2]。由于院校机房大多建得比较早,运行中普遍存在着基础设施不配套、资源利用率低、数据安全性保障不足和运维效率低等问题。
很多院校的数据中心在管理手段上,延用了传统的以人工为主的管理方式,采用手工检查、记录较多,自动化的管理手段应用较少,导致管理无法精准有效实施,难以满足日益增长的各项业务应用需求;在管理方式上,偏重日常运维管理,由值班员每日巡检、统计、记录与报告,技术人员处理异常与故障,属于被动管理模式,不仅管理效率低,而且影响设备的使用;在安全管理上,通常只注重机房门禁、监控和漏洞修补等基本安保措施,对于一些高级的安全威胁,如恶意攻击、外部黑客攻击等,缺乏有效的防范措施,安全管理的意识、制度、手段和技术有待进一步加强[3];在管理技术上,普遍缺乏智能化的运维管理系统,智能化、可视化、精准化的监控管理平台和机制急需建立。
院校数据中心管理理念原则
信息化智能化条件下,树立院校数据中心管理理念与原则,是确保院校数据资源安全、高效运行和有效利用的前提和基础。
管理理念
1. 服务为本。数据中心应始终以服务院校的教学、科研和管理为核心目标,为师生提供稳定、可靠的数据支持和服务,满足院校业务的信息化需求。
2. 安全第一。在提供服务的过程中,数据中心应始终把安全放在首位,确保数据的安全性和完整性不受损害。
3. 绿色环保。采用环保技术和设备,注重绿色环保,降低数据中心的能耗和维护成本,实现院校信息化健康可持续发展[4]。
4. 共享发展。将数据中心的数据进行整合和共享,实现数据的统一管理和使用,共同推动数据资源的共享和利用,实现资源的优化配置和效益最大化,从而更好地支持学校各项业务的发展。
管理原则
1. 安全原则。这是数据中心管理的首要原则。数据中心必须确保数据的安全性、完整性和可用性,防止数据泄露、损坏或丢失,为此,需要采取一系列安全措施,如数据加密、访问控制、备份恢复等 [5]。
2. 规范原则。数据中心管理应符合相关法律法规和标准要求,遵守数据管理的相关规范和流程。这有助于确保数据管理的合规性,避免因违反规定而引发法律风险。
3. 效率原则。数据中心管理应遵循高效、精确、迅速的管理原则,提高数据管理的效率。通过优化管理流程,采用先进的技术手段,可以实现数据资源的快速处理、分析和利用。
4. 可控原则。数据中心应建立完善的授权管理机制,确保数据的访问和使用受到严格控制。这有助于防止未经授权的访问和操作,保障数据的安全性和完整性。
5. 持续发展原则。数据中心管理应建立持续改进的机制,不断优化和完善管理制度,适应院校信息化建设的发展需求。通过定期评估、反馈和调整,确保数据中心管理的持续进步和适应性[6]。
院校数据中心管理思考与对策
完善制度机制,加强人员培训与管理
院校数据中心是院校信息化应用的基础,其设备设施系统复杂、技术含量高,对运行环境要求严格,如何维持其日常运行的可靠性、稳定性和安全性,便成为数据中心管理的根本要求。其中,人员和制度管理是核心。
首先,要做好院校数据中心管理的顶层设计,建立数据中心运维管理体系。对设备设施、平台系统、运维人员、耗材备件、维修流程、管理机制、应急预案等进行综合分析、统筹规划,真正做到运行过程全程监控、运维活动有据可依、管理过程可视可查[7]。
其次,必须制定和完善各项管理制度和机制。制度机制是数据中心管理的前提和保障,合理、科学、有效的制度机制能够帮助工作人员明确工作流程、规范工作行为,确保数据中心管理的规范化和科学化,促进数据中心管理效能的提升[8]。制度机制包括管理人员岗位职责、工作流程、值班制度、巡检登记制度、设备管理制度、安全管理制度等,并且应随着数据中心的建设应用和发展,不断补充和完善。
再者,应加强对运维管理人员的技术培训和演练。随着信息技术和人工智能的发展,数据中心的软硬件也在不断更新迭代,只有定期开展新技术新手段的培训,才能不断提高运维管理人员的技术水平和管理能力[9]。培训内容应包括IT设备的功能性能和常见问题处理、机房环境设备设施的使用与维护、运维管理平台的使用、日常管理的流程要求、应急管理机制等。在此基础上,应做好日常和应急维护管理的演练,确保运维管理人员技术精湛、管理高效。
智能化技术和手段驱动,提升运维管理效益
新一代信息技术和人工智能的发展,也为数据中心的管理提供了更加精准和高效的手段。设备与环境状态监控系统、数据采集系统、基于大数据的可视化管理系统、智能化的运维管理平台等的运用,为数据中心高效、可靠、安全、稳定的运行提供了全方位的保障。
1. 建立基础设施实时监控预警系统,实施主动预知管理
物联网和传感器技术是数据中心基础设施实时监控的技术保障。通过在数据中心的关键设备和区域部署传感器,可以实时采集温湿度、UPS、供电、漏水和消防等各种数据。通过处理和分析实时监控预警系统的数据,可以发现潜在问题,预测未来的设备故障,从而采取有效措施进行维护和修复。这种主动预知管理方式能够大大减少意外停机时间,提高数据中心的稳定性和可靠性。
2. 基于大数据分析技术,开展可视化的容量管理
基于大数据可视化技术,对数据中心基础设施的运行数据进行分析,从而深入洞察网络端口分配、流量控制、防火墙配置设定、网络延伸、弱电管理等,并预测未来的发展趋势和需求。在此基础上结合相应的需求来制定有效的智能配置和防御策略,通过精细化管理和主动管理,有效减少数据中心机房的经济和安全损失。同时,通过收集和分析历史数据,了解数据中心的容量使用情况和变化趋势,开展可视化的资源管理、容量规划和分配策略制定,便于提高数据中心的运行效率和资源分配效率 [10]。
3. 建立智能化的运维管理平台,提升管理效益
引入人工智能和机器学习等技术,建立智能化的运维管理平台,根据数据中心的实时运行状态和需求,自动调整参数和配置,实现数据中心的自动化管理和智能决策,进一步提高数据中心的运行效率和服务质量[11]。这种智能化的运维方式不仅简化了管理流程,减少了人工干预的需求,而且能够快速响应各种突发状况,确保数据中心的稳定和高效运行。同时,智能化的运维管理平台还能够提供更加精准的故障诊断和预测,帮助管理员提前发现潜在问题,避免潜在风险,从而进一步提升数据中心的可靠性。
技术监控和制度管理并行,强化筑牢安全管理防线
为了确保数据中心的安全稳定运行,必须建立完善的安全保障体系。这一体系应涵盖物理安全、网络安全、数据安全和应用安全等多个方面,通过制定和执行一系列严格的安全管理制度和机制,以及采用先进的技术保障手段和方法,确保数据中心的安全性和稳定性。同时,需要加强安全监测和风险评估,及时发现和应对潜在的安全威胁,确保数据中心的正常运行和服务质量[12]。这样的安全保障体系可以有效地保护数据中心的安全性、完整性和可用性,为用户提供可靠、安全的数据服务。
1. 加强人员、设备和环境相关的安全管理
为确保数据中心物理安全,需要制定一系列严格的管理制度和机制,包括门禁、人员进出、设备责任等制度,并明确各方职责和操作流程,防止人为事故。在技术方面,采用机房动力环境智能监控系统和紧急呼叫报警系统(运用5G通信技术和物联网技术),对人员、设备和环境进行全面监测,发现异常立即报警。机房还需要配备智能消防设备和报警系统,确保火灾时能迅速启动应急预案。
2. 加强网络安全管理
为确保数据中心的网络安全,在技术层面,应部署先进的防火墙、入侵检测、漏洞扫描、网络审计等系统,有条件的也可以部署联合态势感知系统,收集防火墙、入侵检测等安全系统的数据,进行异常检测、风险评估和预测,从而构建坚实的网络安全防护体系,实时监测和智能识别潜在威胁,及时阻止恶意攻击,保护数据免受泄露或损坏[13]。同时,还应建立完善的网络安全管理制度,包括信息保密与审查、网站信息发布、人员安全管理、信息安全教育培训、权限管理、审计与监控等制度,明确各方职责和操作流程,加强风险分析和预测,提前发现潜在安全隐患并及时采取防范措施。
3. 加强信息安全管理
为保障数据中心的信息安全,可以采取严格的访问控制措施,包括身份认证、权限管理、网络隔离以及定期审计等,实施多层次的身份验证,确保只有授权人员能够进入机房,并对其操作进行实时监控和记录。在数据保护方面,可以实施加密、备份及恢复、安全审计与监控等策略,确保数据在传输和存储过程中的安全性,防止未经授权的访问和篡改 [14]。同时,还必须定期对操作系统进行全盘杀毒,对信息系统和应用程序进行全面的漏洞扫描、代码审查和安全测试,及时发现并修复潜在的安全隐患。此外,对服务器以及数据存储设备实施严格的物理访问控制和远程管理措施,并定期进行安全审计。
构建高效应急体系,强化应急管理能力
1. 建立应急管理预案
数据中心运行中,可能出现各类突发故障,如硬件故障、软件故障、网络故障、空调故障、电力问题、火灾和漏水以及人为故障等问题,在日常管理中应制定相应的应急预案。预案需详细列出应急响应成员、紧急联系方式、应急设备、故障处理流程、数据安全措施、物理安全措施以及外部协调与沟通等内容,确保在突发状况下能迅速、准确地应对[15]。此外,应通过定期演练和培训,提高管理人员的应急处理能力,以保证出现故障时能迅速启动应急预案。
2. 建立应急管理机制
建立应急管理机制是保障数据中心稳定运行的关键,包括24小时值班制度,确保有专人负责监控数据中心的运行状况;快速响应流程,以便在出现故障时能够迅速启动应急预案;跨部门协调机制,促进各部门之间的沟通和协作。此外,应采用声光电告警方式,及时通知相关人员处理故障。管理人员应快速到位,协调资源并处理问题。通过一整套应急管理机制,最大程度地减少对业务的影响。
3. 应急响应处理
在数据中心机房出现突发性故障后,迅速启动应急预案,按照预案中的流程进行故障识别、评估和定位。同时,组织专业团队进行快速响应,采取相应的处置措施,如设备抢修、数据备份等。在处理过程中,应保持与相关人员的沟通,及时反馈处理进展,确保信息透明。处理完毕后,进行故障总结和评估,总结经验教训,对应急预案进行修订和完善。通过一系列应急处理流程,能够快速、有效地应对数据中心机房的突发故障,保障业务的连续性和稳定性。
结语
信息化智能化条件下,院校数据中心建设要求越来越高,其运行的稳定性和安全性关系到院校日常各项工作的正常开展,因此,数据中心的管理就显得特别重要。一方面,应强化制度机制建设,提升管理人员的综合素质,加强制度落实,这是数据中心管理的首要工作;另一方面,应积极采用先进的技术手段,辅助管理决策,进一步提升管理的质量和效率,这是数据中心管理的必然趋势。
参考文献:
[1]袁元, 周荣锋, 刘军. 可信绿色智能数据中心机房建设[J].电子技术与软件工程,2019(22):185-186.
[2]关丽红, 刘彦翀.大型数据中心运维管理经验[C]//《内蒙古通信》2016年第4期.中国电信集团公司云计算内蒙古信息园,2016:7.
[3]沈鑫.数据中心机房基础设施管理维护研究[J].电子技术与软件工程,2022(24):36-39.
[4]支琴,尹惠镜,姚仁忠.校园绿色数据中心的建设与实践[J].上海节能,2015(04):192-195.DOI:10.13770/j.cnki.issn2095-705x.2015.04.008.
[5]吴震.风险管理在高校数据中心的应用研究[J].网络安全技术与应用,2021(04):81-83.
[6]赖丽萍.绿色智能机房的需求与发展研究[J].电子设计工程,2012,20(19):45-47+51.DOI:10.14022/j.cnki.dzsjgc.2012.19.033.
[7]顾惊涛.企业数据中心建设与管理方法分析[J].中国管理信息化,2018,21(08):39-40.
[8]郭松勤.网络中心管理制度建设的一些思考[J].科教文汇(下旬刊),2012(18):181-182.
[9]刘晶.未来数据中心如何发展[N]. 中国信息化周报,2024-01-22(024).DOI:10.28189/n.cnki.ndnjy.2024.000018.
[10]丁勇.新时代下校园机房数据中心建设与管理方法新探[J].现代信息科技 ,2019,3(05):192-194.
[11]陈庆.工商银行数据中心机房基础设施智能化运维实践[J].中国金融电脑,2021(08):72-74.
[12]纪中锐,杜鹏.数据中心机房安全建设与规划管理初探[J].价值工程,2020,39(27):24-25.
[13]王坚.数据中心管理集中监控智能化分析[J].计算机产品与流通,2020(01):140.
[14]刘晓军.云环境下数据中心网络安全部署[J].中国管理信息化,2016,19(20):162.
[15]商晴庆,丁雪伟,刘超等.数据中心设备的智能化运维管理分析[J].集成电路应用,2023,40(03):252-253.
来源:《中国教育网络》2024年9月刊
作者:王陈雨1、吴强1、白玮2、黄照翠1(作者单位1为陆军工程大学教研保障中心;2为陆军工程大学指挥控制工程学院)
责编:余秀