IT 服务的基础是IT基础设施的运维,ISO20000管理体系的实施,大大促进了中国人民大学网络与教育技术中心管理工作的标准化、规范化、专业化。同时中心领导层也看到了标准的不足,需要建立一套完整统一的运维监控系统来配套,才能充分发挥管理体系的作用。
机房动力环境、综合布线、网络设备、服务器、ISP链路、各种应用、数据库的实时监测,随时提供统计数据和标准的报表,实时报警,成为达成服务承诺的关键。只有早预警、早发现、早处理,才能保证并提高服务的质量。所以,一套功能全面并符合高校实际情况的运维监测系统就成为了高校信息化的必需品。
中国人民大学网络与教育技术中心在实施ISO20000标准的过程中,同步实施了运维管理平台的建设。由于无法找到满足上述所有需求的软件成品,学校与某公司协商达成了自行开发的一致意见,经过一年多的开发,目前初步上线,实现了一些基础功能,后续还需要不断完善。
设计思想
早期的设计思想是做网络中心的信息化系统,包括监控功能、资产管理、报修和用户服务、内部办公、各类报表、合同管理等,是一个大而全的系统。
在实践中,由于进度无法跟上中心实施认证的计划,后期做了调整,从监控功能做起,扩展到资产管理,包括报警和报表内容,以这两项功能为主,完善后再考虑进一步的需求。系统主要设计思想是配合中心选定的ITIL工具软件使用,作为技术、技术管理工作的信息化平台,完善ISO20000标准没有严格要求的部分功能,充分发挥标准化后的管理效能,使之有效落实到具体的设备和管理内容上。
功能设计
1. 网络监测(类似网络天气图、网管系统、拓扑图)、报警
(1)需要监控所有网络设备。
(2)有类似prtg的图形显示、数据表统计和显示功能。
(3)有类似weathermap网络天气图功能,将全网拓扑图与流量监控结合,并能够分区域监控。
(4)提供更加有效的局部实时监控功能。
(5)预定阈值报警,例如流量超过75%、CPU负载超过50%等,提供故障分析和决策依据。
2. 机房环境监控、报警
(1)通过传感器网络,记录并显示温度、湿度、电力等相关信息。
(2)通过预设阈值自动报警,方式为即时通讯工具、手机短信、事件日志。
(3)针对特殊设备,监测空调、UPS等运行参数等,提供决策参考。
3. 服务器监控
(1)需要监控所有服务器。
(2)有集成的图形显示、数据表统计和显示功能。
(3)预定阈值报警,例如内存超过75%、CPU负载超过90%、硬盘容量使用超过80%等,提供决策依据。
4. 数据库监控
(1)建立对所有使用的数据库的监测。
(2)对重要参数采用图形方式显示,便于观察。
(3)预定阈值报警,提供决策依据。
5. 应用监控
(1)逐步建立对各种应用的监测,如Web发布软件等。
(2)对重要参数采用图形方式显示,便于观察。
(3)预定阈值报警,提供决策依据。
6. 自动登录处理
(1)结合类似Xmanager工具的功能,替代登录所有设备,定期修改密码。
(2)必要时,可以自动或手动关闭网络端口。
(3)考虑能够自动配置acl等网络特殊管理功能(需要厂商支持)。
(4)实现空调的远程控制,设定温度,开关等。
(5)终极目标是全权管理全部设备,至少是登录全部设备。
(6)记录所有操作。
7. 数据统计、分析、预警
(1)固定报表。
(2)定义报表。
(3)设备寿命、性能预警以及人员工作预警。
8. 公告(包括报警自动公告)
特殊系统报警自动发布相关公告,例如停电、设备当机、服务中断等。
9. 系统日志
(1)记录人员登录情况以及修改配置、添加内容信息情况等等。
(2)软件系统自己的日志。
10. 文件归档
(1)定期归档文件,减少系统压力。
(2)提供过期归档数据的查询和展示。
(3)方便管理和查询(索引、搜索)。
11. 备份输出
(1)系统的定期备份。
(2)数据输出,方便迁移或灾难恢复等用途。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。