摘要:在大数据时代背景下,面对高校各信息化系统所积累的海量数据,如何避免数据孤岛,融合多源数据,充分发掘隐藏在数据背后的有价值信息是亟待解决的问题。针对此问题,本论文采用 EDM(Educational Data Mining) 方法对原始数据进行数据清洗、数据融合、数据挖掘。在数据挖掘阶段,提出一种改进型的 FP-growth 算法,实现对频繁模式的发现与约减,并通过挖掘出的频繁模式构建用户行为模型,最后利用用户行为模型进行决策支持和用户服务推荐。实际应用表明,本文所提数据处理方案可以实现高校内部多源海量数据的挖掘与知识发现,具有较高的实用价值。
在大数据时代背景下,面对高校各信息化系统所积累的海量数据,如何避免数据孤岛,融合多源数据,充分发掘隐藏在数据背后的有价值信息是亟待解决的问题。针对此问题,本论文采用EDM(Educational Data Mining)方法对原始数据进行数据清洗、数据融合、数据挖掘。在数据挖掘阶段,提出一种改进型的FP-growth算法,实现对频繁模式的发现与约减,并通过挖掘出的频繁模式构建用户行为模型,最后利用用户行为模型进行决策支持和用户服务推荐。实际应用表明,本文所提数据处理方案可以实现高校内部多源海量数据的挖掘与知识发现,具有较高的实用价值。
随着信息技术与教育行业的不断融合发展,越来越多的信息化系统应用到科研、教学、管理、服务等领域。各个信息系统的部署运行不但使教育管理信息化水平显著提高,而且积累了海量的原始数据。激增的数据背后隐藏着许多重要信息。融合多源系统的数据信息,发掘海量教育数据背后的价值已成为教育行业的研究热点。
本研究针对以上问题,通过采用教育数据挖掘技术(Educational Data Mining,简称EDM)[1]对本校内各信息系统的数据进行数据清洗、数据融合、数据挖掘,并提出一种改进型的FP-growth算法发现数据中的频繁模式,用以构建高校人员的用户行为模型,并利用该模型实现决策支持与服务推荐。
研究概述
EDM概述
教育数据挖掘(EDM)技术起始于20世纪80年代,研究者通过运用教育学、计算机科学、心理学和统计学等多个学科的理论和技术来解决教育研究与教学实践中的问题[2]。进入21世纪后,随着互联网技术的快速发展,教育行业也加快了信息化建设,教育系统每天都产生着数以T计的数据,如何利用机器学习和数据挖掘方法从海量数据中提取有价值的信息,服务在校师生,协助高校管理人员进行决策是当前EDM研究的重点。
EDM中角色分类
基于使用EDM的目的不同,在分析过程中,成员角色可以分为4类[3]:教师、学生、管理人员、研究人员,各类角色特点如下。
教师:教学、科研活动的行为主体,通过该角色的数据可以分析其教学、科研的效率,以及相关教育资源使用情况。
学生:教学活动的参与者,通过分析该角色数据可以获得其成绩、消费等方面情况,为改善教学提供决策支持。
管理人员:决策的制定者,利用EDM分析结果可以改进管理制度,科学分配教学、科研资源。
研究人员:数据分析的参与者,采用EDM分析方法,发现新规律,验证已有理论。
基于EDM的用户行为建模
图1显示了通过EDM构建高校人员用户行为模型与决策支持系统的工作流程。
该流程通过对原始数据进行数据清洗、数据融合、数据挖掘,构建用户行为模型,并通过该模型为管理人员提供决策支持和为用户提供服务推荐。
数据清洗与数据融合
数据来源
本文数据来源包含教务系统数据、一卡通消费数据、网络流量数据、图书馆系统数据,所有数据均采集自北京化工大学各部门信息化系统。此外,为保证个人隐私,所有数据在处理过程中对学工号、姓名等进行了加密处理。
其中教务系统数据包含学生的选修课程、单科成绩、GPA等信息。
一卡通消费数据为本校师生使用一卡通产生的所有流水信息,包含食堂消费、超市消费、浴室消费、校医院消费、开水房消费等。
网络流量数据为用户的网络日志信息,包含用户的登录时间、登录地点、在线时长、总流量等信息。
图书馆数据包含用户的图书借阅信息、进出图书馆时间、次数等信息。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。