据调查,当前大部分省市都建有区域性教育专网,但普遍仅通过传统的运维网管实现网络内各设备的运维工作,还未形成标准化、智能化的运维管控体系,无法构建起对网络设备、安全设备实施一体化的运维管理、状态监控、监测数据智能分析。
当前,随着教育专网高并发、大通道、多用途的发展特性尤为突出,对建设智能运维管理平台,通过运行数据和分析结果为决策管理人员提供直观的数据展示并辅助决策,强化在专网中各节点流量采集分析,对整体网络质量进行监测等需求尤为突出。针对各节点网络、链路、流量做精准分析,确保各关键节点可根据实际情况进行分析管理,同时将相关结果汇总至运维管控中心进行统一分析、统一规划,成为教育专网智能化运维平台的主要特征。
面对实际应用中的需求,重庆市教育宽带专网经过多年的建设,已初步形成了智能化运维体系。现结合近年来重庆市教育专网建设实际,浅谈智能化运维管理平台建设技术路线。
教育宽带专网建设现状及问题
为加快教育数字化发展,打造数字中国,在“十四五”时期进入了新的阶段。习近平总书记强调:没有信息化就没有现代化。当前,加快数字化发展、建设数字中国,是加快推进国家治理体系和治理能力现代化、促进人的全面发展和社会全面进步的必然选择,是培育新的发展动能、激发新的发展活力、弥合数字鸿沟的必然选择 。
重庆市教育专网骨干网于2017年建成,以租用电信专网光纤组建,骨干网由重庆大学、市教育技装中心、西南大学、重庆师范大学、工商大学、水土等6个核心节点组成,骨干网各节点间通过10*10GE 链路互联,采用网状结构组网,各个核心节点之间通过OSPF协议互通;教育网通过6个核心节点将网络延伸至38个区县,核心节点至区县教委节点间通过1*10G互联,核心节点至区县教委节点之间通过静态路由协议互通;其他高校通过GE/10GE链路接入教育骨干网,共享教育资源;重庆市教育专网出口节点部署在重庆大学,通过2*10GE链路接入省出口设备,采用BGP路由协议与出口设备互联。
近年来,重庆市教委着力夯实“云网融合”建设,积极响应《教育部等六部门关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》。根据重庆教育专网的原有情况,增有效、去无效、调结构、补短板,进一步完善教育专网体系、提升管理能力、丰富教育资源、提高资源质量,推动教育“十四五”发展增效能、调结构、补短板,夯实基础,是教育宽带网发展首要目标之一。
重庆教育专网接入网络由各区县建设,通过将国家级干线网、市级骨干网与区级接入网互通,将教育网延伸至全市小学、中学、职业高中、院校、继续教育机构等,最终建成教育“一张网”。基于教育专网覆盖面广、并发数大、稳定性高的要求,改造前仅通过简单的运维网管实现网络内的各设备的运维工作,未形成智能化的运维管控体系,无法对网络设备、安全设备等实施一体化的运维管理、状态监控、监测数据智能分析。面对教育数字化发展新趋势、新要求、新任务,打造智能化运维管理平台显得尤为迫切。
教育专网智能化运维平台建设主要需求
随着全市教育数字化发展快速推进,重庆市教育专网在实施全市学校接入的同时,需要根据教育网业务的发展动态优化与各业务系统的进出口通道运维管理。从而充分发挥教育城域网网络能力和性能优势,提升教育城域网在重庆教育体系及政务体系的能力专业性、业务功能性、应用多样性承载地位。同时,根据《重庆市电子政务外网建设规范》,预留电子政务外网的网络接口,形成以重庆市教育城域网为核心网络,在提升各项教育、政务业务发展的同时,利用教育城域网的性能和能力优势,形成重庆市一网多业务融合发展格局,为保障教育专网的常态化高效运行,运维管理需着重解决以下方面的问题。
关键业务保障能力需求。教育关键业务保障,是教育网建设必须重点考虑的方面,不仅关系到日常业务的正常开展,更是影响大型教务教学活动统筹推广。在信息建设层面,更需要不断探索精细化的业务保障和管理能力,提升直辖市教育网的运行效率。
网络整体监测管控需求。教育专网不能对网络设备、安防设备实施一体化的运维管理,对状态监控、监控数据的智能分析,仅通过简单的运维网管实现,教育专网还没有形成智能化的运维管控系统。
可视化图形界面管理需求。通过运行数据和分析结果为决策管理人员提供直观的数据展示并辅助决策,通过在专网中各节点进行流量采集分析,对整体网络质量进行监测,通过拟真探测感知用户视角的网络质量,建立用户视角的网络质量监测体系,结合形象的可视化图形界面进行网络运维管理。
链路流量精准管控需求。可针对各节点网络情况、链路情况、流量情况做精准分析,各关键节点可根据实际情况进行分析管理,同时将相关结果汇总至运维控制中心,进行统一分析、统一规划。另需要根据账号体系进行权限划分,实现分级分权管理。
智能化运维平台主要技术方案
平台整体建设架构
重庆教育专网智能运维管理平台架构如图1,主要功能模块分为数据采集、数据处理、运维管理、统一展示等四个部分,各部分主要功能要求如下。
数据采集。通过Agent、接口、日志等多种方式实现基础数据采集,可以对接覆盖云、网、边、端、安全、应用、业务系统等全域的管理对象。
数据处理。对各专业运维领域资源进行管理,并提供监控事件处置、告警和配置管理。
运维管理。基于运维数据和处置情况,提供运维管理人员各项运维应用,包括资源监控管理、数据中心管理、运维流程管理、智能分析、自动化运维等方面。
统一展示。作为运维平台的统一门户,为运维人员的日常运维工作提供统一入口及多种展示方式。
图1 重庆教育专网智能运维平台架构
平台主要功能模块建设要求
数据采集部分
运维平台数据采集层需根据实际管理需求通过采集引擎,从各种管理对象中采集所需的运维信息并进行数据压缩、归并、转换等预处理操作,同时支持从其它管理平台采集相关运维信息后进行集中处理、分析和呈现,同时系统还可通过统一接口将告警、性能、数据处理分析信息提供给其它管理平台。对于网络设备、服务器、存储、操作系统、中间件、数据库、业务应用流量等管理对象,可通过 SSH、Telnet、JMX、HTTP、HTTPS等协议采集性能及配置信息数据、流量信息等。
数据处理部分
数据处理会根据实际管理需求,将通过采集引擎从各种管理对象中采集的运维信息进行数据压缩、归并、转换等预处理操作,同时支持从其它管理平台采集相关运维信息后进行集中处理、分析和呈现,同时系统还通过统一接口可将告警、性能、数据处理分析信息提供给其它管理平台。另外,数据处理部分提供数据管理,提供数据配置项定义、关联、审核、关系管理、基线管理、数据同步等功能,满足对运维管理对象的数据汇聚要求。根据获取的数据,对现网所有交换机、路由器等网络设备进行统一管理,提供网络设备状态和基本信息管理。
运维管理部分
运维管理部分为运维人员提供全网资源监控管理、运维流程管理、智能分析和自动化管控等功能。
监控管理。需支持通过SNMP(V1/V2C/V3)协议对多厂商、多品牌、多型号的网络设备进行监控管理,可提供网络设备拓扑管理,并支持网络设备的详细信息查看,包括设备地址、运行时间、设备型号、版本、接口数量、登入方式、路径拓扑展示、会话连接数、CPU利用率、内存利用率、端口流量速率、告警信息等监控。能对X86架构服务器硬件状态、硬件性能数据进行监控,并具备自动巡检功能,可以有效地替代传统的通过查看服务器状态灯的人工巡检模式。对服务器硬件的监控通过标准的协议进行,包括IPMI、SNMP、RESTful等,可根据不同的服务器型号支持的监控类型设置不同的连接协议访问参数,支持对主流存储厂商的存储设备进行监控,监测范围包括存储池、存储卷、LUN、端口、电源、风扇、控制器、存储容量等。
流程管理。运维流程管理主要提供服务台、事件管理流程、问题管理流程、变更与发布管理流程与配置管理流程、服务级管理流程与知识库管理流程等。实现对网络所涉及的网络运维团队、设备运维团队、运维管理团队的运维流程的统一管控,包括但不限于上下架、出入库、报废等在内的资源全生命周期的统一流程化管理。同时可以自动对接系统警告,自动生成工单,对工单处理状况、处理结果进行追踪、记录。
智能分析。灵活的报表生成和多样性呈现,通过统一的运维管理门户系统,建立平台内部数据接口获取数据,集中展示运维报表数据的智能分析,满足用户需求的变化。通过报表可以有序地展示运维各项管理指标,并生成各种运维分析报告和图片,全面呈现资源与业务监控、资产统计、告警统计、运维工单统计、整体运维统计、运行考核、故障诊断、领导决策等日常运维中的报告,为决策提供科学可量化的依据。
自动化。第一,智能巡检管理。随着IT技术的发展、以业务为核心的运维理念的普及,传统网络运维管理在向运营管理转型过程中面临诸多挑战,平台需提供智能巡检管理功能,通过自动化和智能化手段极大提升巡检工作的便利性和专业性。
智能巡检功能需面向网络产品,在不影响现网业务的前提下,灵活定制各种网络运行指标,对网络进行全面运行状态自动化检测分析,深度感知网络基础架构运行状态。同时,支持实时输出准确、详实的分析报告及改进建议,预防网络运行中可能出现的各种风险,发现网络潜在的性能瓶颈。
巡检系统应具备灵活多样的信息采集方式:支持以 telnet、ssh、http、ipmi等方式采集信息,支持从其它网络设备/服务器代理登录设备,支持以日、周、月等的周期性、单次、立即的方式采集设备信息,支持多种HTML/Word/PDF/Excel报告格式。巡检系统应具备高度灵活的自定义功能,对单台设备的运行明细、运行检查汇总报告进行现场实时输出,给出详实准确的检查报告结果、改进问题的建议。支持自定义汇总报表内容,灵活进行增删,支持设备在自定义报表中的告警阈值,包括CF卡空间利用率、内存利用率、CPU利用率等,支持自定义报表封面、版权声明和用户标识,支持多设备巡检指标项,支持按需裁剪自定义等功能。
第二,配置合规和配置管理。根据运维管理需要,平台能创建不同的设备合规检查任务,针对不同设备、不同策略进行定期或定时的规则检查。另外,针对执行过合规任务,并检查出设备存在违规的情况,支持运维人员对该任务进行二次合规检查。支持输出合规报告,用于记录资源检查所发现的违规信息、变更合规结果。通过分析资源合规报告,工程师可以深度感知设备当前的状态、设备违规情况,根据配置变更报告呈现的信息,发现设备的配置差异,识别配置的变化情况,为维护设备的正常运行提供保证。资源合规报告是对设备进行合规检查的体检结果,报告中需记录设备检查所发现的违规信息,可以通过分析报告内容深度感知设备当前的状态、设备违规情况,有效地识别设备存在的配置隐患。
统一展示部分
提供运维管理事件的统一门户和统一展示,提供图形、报表等多种数据展示方式和外部接口。
统计报表支持报表模板管理、阶段性报表管理、报表模板发布,提供实时报表和周期性报表的查看。
展示自定义。支持个性化展示方式,提供方便的报表模板加载功能,可提供样式和数据的个性定制。
报表管理。可以拖放报表的组成元,预览界面所看到的报表与打印出来后的报表效果是一致的。报表设计完成后可在管理软件中发布。
数据输出自定义。支持包括普通的行列报表、主/ 子报表、图形摘要报表、交叉表、TopN和Bottom N报表,可为报表添加基于公式的、生动的页眉和页脚。
教育专网智能运维平台,将极大程度解决教育专网运维中存在的突出问题,提高运维工作效率和网络服务稳定性,确保各项业务系统服务持续、高效。随着人工智能、大数据、云计算等现代信息技术的进一步发展,教育数字化发展战略深入推进,大规模教育专网运维管理将更加要求精细化、标准化、规范化,现有的智能化运维管理平台将在实际生产环境中得到完善,平台模块功能将持续升级迭代,将对数字中国、教育强国、教育强市建设发挥重要的支撑作用。
基金项目:本文为重庆市深化教育领域综合改革研究课题《数字课程公共服务体系建设赋能高等教育高质量发展研究》(项目编号:23JGZ13)阶段性成果;重庆市高等教育教学改革研究重点项目《在线课程公共服务体系支撑高等教育数字资源共建与应用研究》(项目编号:234150)阶段性成果。
来源:《中国教育网络》2024年8月刊
作者:郑州、杨帆、刘娟(重庆市教育信息技术与装备中心)
责编:陈荣