当前,得益于4G、5G网络技术的飞速发展和以智能手机为代表的智能设备快速普及,以及大量校园数据的激增,如何提高师生办公效率和促进科学化管理与决策已成为数字校园研究的热点。智慧校园是基于数字校园,利用云计算、人工智能、大数据分析等技术将校内资源空间和物理空间紧密结合,不仅能使校内师生随时随地获取校园学习和生活所需的服务,还能通过海量的行为数据分析掌握在校师生的生活轨迹,以进一步促进数字校园的智慧化管理。
基于企业微信(教育版),笔者建立了大数据智慧校园平台的体系结构,再根据校内需求调研情况完成消息中心、应用中心等模块的开发,以提高校内师生办公学习效率。最后,充分利用华中科技大学大数据智慧校园平台实际运行以来所积累的大量数据,通过主成分分析PCA和KMedoids聚类算法挖掘可用信息,构建决策模型,从而为师生管理提供决策支持,并推进更为完善的智慧校园信息化建设。
基于企业微信的大数据智慧校园平台
平台总体架构设计
如图1所示,基于企业微信的大数据智慧校园平台主要包括表现层、应用服务层、业务逻辑层、数据资源层和数据分析层。师生在移动客户端的用户界面层(即表现层)选择智慧校园平台所提供的各类服务(教学、生活、医疗、财务等服务)。业务逻辑层包括服务器和校内开放接口以实现请求信息的处理和返回。而数据资源层上的校内数据资源库汇聚了学生、教师、政务等数据,其对应的网页应用程序通过互联网信息服务部署到校内服务器上,以便与企业微信的服务器进行消息发送和接收。数据分析层则基于校内数据资源库中记录的师生日常行为数据,对其进行采集、清洗、存储和分析,以挖掘其中潜在的模式,为学校科学决策提供支持。
图1 平台系统架构和工作流程
平台五层架构分析
1.表现层和应用服务层
表现层位于智能移动设备的企业微信上,是师生和大数据智慧校园平台之间交流的桥梁,为师生提供交互的工具。应用服务层是校内信息服务的入口,师生通过该层对各个应用进行访问。师生根据不同业务在表现层界面上选择所需服务,如教学服务、生活服务、医疗服务等业务,选择的信息会被传递到下一层。表现层不对数据进行处理,仅用来接发和显示信息。管理员可以对不同类型的师生进行管理,设定不同的权限,使师生可以接收和查看各自所需的信息。
2.业务逻辑层
业务逻辑层是整个系统架构的中心部分,主要是校园移动平台服务器,所有的逻辑操作和对数据的访问都是在该层完成。业务逻辑层位于应用服务层和数据资源层之间,起着承上启下的作用。对于应用服务层而言,业务逻辑层接收其各种业务请求;对于数据资源层来说,业务逻辑层根据业务要求获取数据并进行处理,再将处理后的结果返回给应用服务层和表现层进行展示。
3.数据资源层
数据资源层是整个架构的基础,包括校内共享数据库和配置文件。共享数据库存储着校园智慧平台的所有数据,以减少数据冗余,来为上层提供准确的数据。而上层主要是通过添加、删除、查询等操作对数据层中的共享数据库进行访问。
4.数据分析层
数据分析层对于决策者来说是核心层。数据分析层先通过选择、清理、集成和变换将所需数据汇集,再使用工具确定算法,来对集成数据进行关联分析,最后以可视化方式对学校情景进行综合展示,辅助校内决策人员进行工作和决策。
主调和回调访问
师生通过移动端在基于企业微信的大数据智慧校园平台获取各类服务时,其应用层通过主动调用或回调模式来访问校园门户平台服务器和校内数据资源库。主调模式下,服务器端可以自动回复固定的信息。但如果需要接收企业微信成员发送的信息并返回所需的信息,就需开启企业微信的回调模式,调用自主开发的接口,以实现功能的自定义。
在开启所需应用回调模式前,需先登入企业微信进入后台管理页面,填写相应的URL、Token、EncodingAESKey这3个重要的参数:URL为移动校园平台服务器的域名地址,支持HTTP协议;Token用于后台验证,由企业填写;EncodingAESKey为消息加密,由后台随机生成。
在开启回调模式后,当用户在表现层使用企业微信向移动校园平台主动发送文本、图片、语音等格式的消息后,实际是先被发送到企业微信的服务器上。然后,由企业微信服务器通过GET请求回调移动校园平台服务器的URL,移动校园平台通过参数进行验证后,才会在业务逻辑层对消息进行内部分析,并根据业务需求与数据层进行通信,获得所需的数据来处理。最后,将处理后的数据以XML格式、POST和GET的方式返回给企业微信服务器,再由企业微信服务器将结果发送到师生的程序界面上进行显示。
平台应用功能设计
对师生而言,应用服务层是基于企业微信的大数据智慧校园平台的核心层,使用者能够在移动端体验到平台的各项服务。基于校内师生需求调研和高校信息化发展的归纳,该平台的应用可分为四大类:消息中心模块、应用中心模块、网上办事大厅模块、协作工具模块。
消息中心集成统一通讯平台,各应用(如课程提醒、水电费缴纳、会议室预约等)可注册至统一通讯平台,调用统一发送接口将数据发送至统一通讯平台,接着消息中心将数据封装成消息,最后通过调用企业微信平台的消息接口把消息及时推送给师生。师生可以创建群或向多人群发信息进行沟通和工作交流,从而解决校园信息发布渠道多样、信息较为分散、师生查找困难、不能及时有效地通知到用户个体等一系列问题,提高了学习、办公和生活效率。
应用中心以企业微信为载体,实现移动端的直观展示,师生可以直接通过企业微信访问学校的各类应用系统,随时随地享受校园服务,同时结合消息中心的消息推送功能,有针对性地推送应用消息,为师生提供及时的提醒服务。应用中心包括校园卡、生活后勤、医疗服务、财务服务等模块。校园卡模块主要提供充值缴费、挂失、流水查询等功能。生活后勤模块包括校园地图、水电费、后勤报修、失物招领等,为师生的日常生活提供便捷。医疗服务模块接入由校医院负责建设管理的各项医疗服务,包括门诊缴费、报告单查询等。财务服务模块可以查阅各项财务制度文件、办事流程,支持财务查询,包括来款查询、项目查询、工资查询等。
网上办事大厅统一办事服务,提升用户体验。平台提供学校用户登录前访问办事大厅的首页,其中包括来访预约、科研一站式平台、心理咨询预约等,方便师生在移动端办理各项校园业务。服务方式分为线上查询、线上和线下办理。
协作工具是指企业微信内置的用于提升工作、学习效率的日常工具,包括审批、打卡、微文档、日程、会议等。审批功能可以自定义审批模板,支持关联控件,智能显示表单内容,流程更高效。打卡功能可通过移动端或考勤机打卡,自动生成考勤报表,支持固定和自由时间的上下班、外出办事打卡以及排班。微文档功能则继承了腾讯文档的稳定性和丰富的编辑功能。日程功能提供了高效便捷的会议和日历的组织与管理能力。会议功能延续了腾讯会议的高清和稳定的音视频开会体验,同时将屏幕共享、电子白板、会议文档和分组讨论等功能集成以提供多方互动协作的会议空间。
大数据分析与挖掘
华中科技大学基于企业微信的大数据智慧校园平台用户端首页,是师生在移动端的统一入口。师生通过实名认证后,便可根据需求使用不同的应用。
师生对于平台应用服务层的访问量巨大,校内数据资源层时刻记录其每天访问和使用时所产生的数据。华中科技大学网信办工作人员在数据分析层上,先对校内数据资源库的历史师生数据进行预处理(清洗、集成、选择和变换)后,再通过统计方法对预处理后的数据按照时序序列或根据不同访问的类型进行分析,挖掘在校师生学习、办公、生活的总体趋势和规律,从多个角度了解师生的校园生活,并对一些问题给出解决方案。同时,对于不同应用的数据进行关联性分析和可视化展示,能够得到更有价值的结果,为平台的改进、优化和决策制定提供有力支持。
本研究按日期顺序从数据库中提取2022年2月8日至2022年3月24日这45天的使用人次数据进行分析,以挖掘师生每天的访问量和每周访问的高低峰期(如图2所示)。同时,按照师生访问的服务应用类型进行分类汇总,产生不同应用下的使用人次分布(如图3所示),以此对师生访问内容进行挖掘,找到师生关注的服务点。
图2 企业微信与微信插件访问平台的时序序列与频率
图2(a)表示师生通过企业微信与微信插件访问校园移动门户网站的时序序列对比图,横坐标表示时间,纵坐标表示使用人数。据图2(a)可知,师生日常行为呈现出以下特点。
第一,师生通过企业微信与微信插件访问校园移动门户网站的增长和减小趋势基本相同,但通过企业微信使用的人数总是比通过微信插件访问校园门户网站程序的多。这说明,师生更倾向于使用企业微信App来访问校园门户网站程序。
第二,企业微信使用人数随着时间的变化幅度较大,主要出现在工作日与休息日变换的节点处。通过微信插件访问校园门户网站的人数自2月18日起一直处在10000~20000之间,并且变化幅度较小、较平稳。通过企业微信访问校园门户网站的使用人数在2月18日之前处于较低水平并且变化幅度较小,到2月18日明显增加,是因为学校通知2月18日教职员工正式上班,2月19日开始返校,师生需要访问校园网站门户获取信息以及办理业务,所以使得这三天访问量处于较高水平。
第三,之后每五天保持高使用量,每周六使用量最低,周日的使用量次低,说明师生即使可以随时随地通过移动平台访问门户网站,在周末两日也较少进行办公,师生更愿意在工作日访问移动校园门户平台来获取相关信息以及处理一些业务。
图2(b)表示图2(a)中两条曲线使用人数的频率图,横坐标表示使用人数,纵坐标表示使用人数出现的频率。据图2(b)可知,企业微信使用人数集中在20000~40000,微信插件使用人数集中在14000~18000之间。因此,决策者可以通过访问人次数分布情况来合理配置移动处理平台服务器,使其负载均衡。
图3 平台应用类型的访问人次分布
图3(a)表示的是45天里师生访问各个应用的数量分布统计。据图3(a)可知,网上办事大厅、校园卡和智能推荐这三个应用每天访问量较少,每天的访问人数集中在0~5000人次。通知·公文·会议应用的每天访问人数较为分散,访问人数的范围为0~35000并且分布较为均匀。讲座·直播·活动、消息中心、校园资讯这三个应用的访问人数主要集中在0~10000和15000~25000之间。应用中心与其他应用的访问人数集中分布在5000~25000之间,电子邮箱应用访问人数集中分布在2500~10000之间,这也符合师生在客户端的分布情况。
图3(b)四张图为2022年2月14日至2022年3月13日连续四周,每天不同应用的访问次数。其中,第一周各应用的总访问次数逐渐增加并在周六时达到最大值,前四天其他应用访问人数最多,周五、周六校园资讯应用访问人数最多,同时由于周五、周六、周日为返校日,师生返校后通过应用中心办理线上返校手续,所以周六应用中心访问次数最多。第二周为开学第一周,周一至周五的访问量明显高于周六、周日,周三、周四通知·公文·会议应用的访问次数最多,校园资讯访问明显减少,表明开学后,师生获取资讯的方式变成了会议和公文。第三周从访问总量上看,师生对应用中心的访问最多,其中在周一时应用中心的访问量占据了全天访问量的90%左右。周五时,应用访问总量为整周最高,且通知·公文·会议应用的比例较高,同样的情景也出现在第四周的周五,说明各院系可能都会在周五通过会议等形式进行工作和学习总结。
随后,本研究再对2022年2月8日至2023年2月17日一年时间内的数据进行清洗、转换和特征提取操作,得到常用的校园应用(包括应用中心、通知·公文·会议、消息中心、电子邮箱、讲座·直播·活动等)的页面访问量(PV)和独立访问用户数(UV)数据,之后开展相关性分析,得到了不同应用PV和UV之间的相关系数矩阵热力图(如图4所示)。
图4 平台主要应用类型的PV和UV相关系数矩阵热力
据图4可知,每个应用的PV和UV之间的相关系数大多在0.93到0.98之间,表明应用的PV和UV之间存在非常强的正相关关系,即某个应用的UV增加时,其PV也很可能增加,用户数量和活跃度密切相关。除此之外,应用中心、通知·公文·会议、消息中心等应用的PV和UV之间相关系数基本在0.4~0.7之间,表明这几个应用之间存在一定程度的关联,即应用可能共享相似的用户群体或具有相似的使用场景。然而,这些应用与校园资讯、智能推荐(试用)和网上办事大厅之间的关联较弱,这意味着这些应用的用户群体、使用场景或功能有所不同。低相关性的结果提供了一个优化和改进应用的方向:针对不同应用的特点,可以采取有针对性的措施来提高其吸引力和用户粘性,从而提高用户数量和活跃度。
从数据相关性分析结果可以看出,每个应用的PV和UV之间的相关系数较高(0.93~0.98之间),表明它们之间存在较强的线性关系。这也意味着每个应用的PV和UV之间存在一定程度的重复和冗余信息。
为了减少原数据的复杂性并更有效地表示原始数据中的关键信息,本研究首先采用主成分分析(PCA)技术提取更具代表性的特征。PCA通过将原始数据投影到新的低维空间,使得在降低数据维度的同时,仍然保留了大部分原始数据的信息。其次,通过KMedoids聚类算法对PCA降维后的数据进行非监督学习分类。KMedoids聚类算法与KMeans聚类方法相似,它将数据点分为K个簇,但是选择数据点本身作为质心,而不是计算数据点的均值,这使得KMedoids方法对异常值和离群点具有更强的鲁棒性。通过KMedoids聚类算法,能找到分类中点数最少的一类。这些点包含数据中的异常值或离群点,具有与其他类数据点不同的特征和行为,也能反映特定时间段内的特殊情况,而了解这些特殊情况对于解释数据中的波动和异常现象具有重要意义。最后,在不同应用中找到点数最少的一类所出现的共同日期点。
基于企业微信所提供的便捷丰富接口,本研究将华中科技大学校园师生实际需求与大数据分析模型相结合,设计并实现了大数据智慧校园平台。研究内容涵盖了总体架构设计、工作原理、系统实现以及历史数据的挖掘与分析。通过该平台,师生不受地点、时间和设备的限制,仅需联网的智能手机即可访问校内资源,从而提高办公效率。此外,该平台具有广泛的推广价值,可应用于其他高校。最后,在空间和时间维度上,对访问系统常用的应用历史数据进行挖掘与分析,采用PCA降维和KMedoids聚类算法识别主要特征和特殊时间点。这有助于揭示影响校园应用使用的关键因素,为制定有针对性的推广策略和资源分配提供科学依据,从而为全校师生提供更加便捷的服务。通过这种方式,学校智慧校园的改进和深层次决策分析可以更加精确,实现智慧校园的优化与升级。
实验技术项目:华中科技大学实验技术研究项目(HZKJSYJSXM2024M060)
来源:《中国教育网络》2024年8月刊
作者:杨毅、李凯(华中科技大学网络与信息化办公室)
责编:陈永杰