随着“一网通办”的改革推进,上海市持续推进学生跨层级、跨地域、跨系统、跨部门、跨业务协同管理和服务的工作,通过上海学生主题库建设实践,基于全学段视角开展数据治理,为学生业务工作提供数据驱动的决策支持。
现状分析
近年来,学生大数据在各地教育领域的应用日益广泛,涉及学习、管理、行为分析、就业和资助等多方面。尽管学生数据整合和治理的研究逐渐增多,但纵向时间维度的学生数据治理研究相对较少。相关研究主要集中在数据仓库、数据湖、联邦学习等数据整合方法;数据标准化、数据清洗、数据一致性检查等数据质量管理;以及学生画像、个性化学习等数据应用。纵向时间维度学生数据治理,覆盖从幼儿园到高等教育全学段甚至成人教育的学生数据,以了解学生成长发展的全过程。相关研究主要集中在数据标准体系、学生数据的隐私保护以及将数据治理结果用于学生成长档案、学业预测等方面。目前各地涉及全学段的学生数据治理大多停留在理论层面,缺乏实践应用。
上海市学龄前、小学、初中、高中、中职、大学等学生信息系统积累了丰富的学生数据资源,开展全学段数据治理面临以下难题。第一,数据架构不清。学生数据来源教委各直属单位的多个信息系统,尚未建立全市统一的数据架构,数据资产尚未形成统一的全景视图,大量数据沉淀在各自的应用系统中,处于“沉睡”状态,再利用率极低。第二,数据质量不高。数据资源可用性差,数据质量不可控,数据价值的挖掘和利用困难,数据湖中存在大量难以清洗的“脏数据”。第三,数据一致性不足。不同系统之间的数据不一致,大量的无效数据存在于数据库及信息系统中,给数据关联分析造成了极大困扰。第四,数据落标不够。缺乏统一数据标准,导致统计口径不规范,指标含义欠明晰。系统间信息交互难度大,数据集成共享困难。部分学段学生系统缺乏元数据管理,数据资产分布及流转信息无法支持数据血缘分析,导致缺乏可信数据源。
基于全学段的学生数据治理
数据标准体系是规范数据管理、提高数据质量的关键。横向视角可以更深入地分析学生多维度信息,纵向视角可以辅助追踪学生成长历程。上海市以数据标准体系、横向生命周期和纵向生命周期为着眼点进行数据治理,以期提升数据质量、促进数据共享、优化数据应用,为全市学生工作开展提供数据支持。
完善数据标准体系
图1 标准制定和管理
数据标准体系是为规范数据管理、提高数据质量而建立的一套标准和规范,其涵盖数据采集、存储、处理、应用等各个环节,为数据管理提供统一的依据和规范。学生数据治理涉及的数据标准体系主要包括以下内容。
标准规范:包含命名规范、元数据标准、代码标准等,也包括程序注释规范、程序申明规范等。
运行规范:支持相关应用系统提供共享数据访问服务,支持第三方软件及二次开发提供API接口,支持国产化操作系统和主流开源操作系统,支持开源中间件和国产化中间件,支持主流数据库和国产数据库。
标准制定和管理:实现分类代码管理,为数据的录入、采集、加工、分析应用提供标准代码支持;业务标准以市学生事务中心建设,技术标准以上海市大数据中心牵头建设,管理标准双方共同建设。
横向生命周期治理
横向生命周期治理涵盖学龄前、小学、初中、高中、中职、大学的全学段学生学业、基础信息的数据体系,将学生的所有学习记录等基础信息汇集在一套系统中,形成“一生一档”标准化教育记录。横向生命周期治理是在当前时间点、当前学生主题库的基础上,对学生从入学到毕业的全学段学业、基础信息数据进行统一管理和治理。
横向生命周期治理首先需要开展数据归集,遵循数据标准规范,对来源于包括上海市教委业务应用、区教育局应用数据平台、学校应用数据平台的数据,以及内部碎片化数据、政府共享数据、社会互联网数据等各类大数据资源进行统一的采集,将各类数据集中到学生事务中心平台中进行统一管理。采集数据内容涉及幼儿入学评估数据、中小学学籍信息、学生及家长关系、毕业生就业等多场景数据。采集的数据遵循“一数一源”原则,同一业务、同一指标、同一主体的数据只能有一个来源,以确保数据的准确性和一致性。
图2 数据归集路径
横向生命周期治理第二步是数据清洗和转换。数据清洗方式主要分为手动清洗、全机清洗、人机同步清洗和人机异步清洗等四种类型;清洗数据类型包含缺损数据、错误数据和重复数据。数据清洗的流程包括数据分析、定义数据清洗转换规则、验证数据准确性、清洗错误数据和干净数据回流等五个步骤。
横向生命周期治理最后一步是数据集成和整合,确保数据在不同学段之间的无缝对接和互通。过程中需要存储大量原始数据并进行实时数据分析,通过将不同来源、不同格式和不同结构的数据统一汇聚到数据湖中,为数据分析和应用提供统一的数据视图。数据集成分为批量数据集成和实时数据集成两种方式。数据整合根据具体的需求和环境,考虑数据源、数据格式、数据结构、数据质量等因素,采用数据合并、数据匹配、数据关联三种方式完成。
以数据集成和整合为基础建立学生数据模型,并确定层次化的方法来管理数据结构和关系,确保数据在不同层次的抽象下保持一致。数据模型管理包含模型新增、模型审核、模型维护、模型复制、模型转换、逆向工程、模型同步、物理模型监测等环节。本研究整合的学业、基础数据模型包含学生学籍轨迹、高校毕业生就业、中小学家庭成员信息、学生资助特困信息、在校生身份变更模型、学生就业状况等。
数据质量检查针对分类汇总库中来自各个业务系统的数据进行规范性检查,质量稽核规则和要求如表1所示。
表1 质量稽核规则表
纵向生命周期治理
纵向生命周期治理跟踪学生历年的状态和升学变化,解决各种类型的升学造成的数据变动问题。纵向生命周期治理以横向生命周期治理为基础,其数据抽取重点关注学籍变更和休学、转学,以及各学段开始和结束时间不一致,综合评价、学业评价标准不同等问题。
以学生为中心的学习历程数据来源于该学生全学段的实际情况。在学生纵向生命周期治理中,通过建立数据关联关系,将不同阶段、不同来源的学生数据串联起来,形成完整、一致的学生学习历程数据链。根据数据表中记录的关联方式,可分为以下三种类型:
1.一对一关系。一个表中的一个记录最多只能与另一个表中的一个记录相关联。例如,学生基本信息表中的每个学生记录与学生照片表中的唯一照片记录相关联。
2.一对多关系。一个表中的一个记录可以与另一个表中的多个记录相关联。例如,学生课程成绩表中的每个学生记录与学生选课记录表中的多个选课记录相关联。
3.多对多关系。一个表中的一个记录可以与另一个表中的多个记录相关联,反之亦然。例如,学生社团活动表中的每个学生记录可以与多个社团活动记录相关联,同时,每个社团活动记录也可以与多个学生记录相关联。
纵向生命周期治理面临一些难点,需要在后续工作中重点关注。第一,休学、转学等学生学籍变更中,数据可能来源于学生本人、学校、教育主管部门等,数据来源不一致和数据关联不清晰导致数据核查困难,难以形成完整、一致的学生学业档案,尤其是部分学校对休学、转学数据管理不规范会导致数据缺失、错误或不及时。第二,各学段开始和结束时间存在差异,导致学生学业数据难以进行横向比较和分析。假期安排不同、课程设置不同也会导致学生实际学习时间和学业进度不一致。不同学校综合评价、学业评价的评价标准和方法不同,导致数据难以进行比较和分析。针对这些问题的处理办法如下:第一,制定统一的学生学籍变更、休学、转学、学段开始和结束时间、综合评价、学业评价等数据标准,规范数据格式和编码。第二,加强数据质量管理,建立健全数据质量管理制度,定期进行数据检查和清洗,确保数据质量符合要求。第三,建立数据共享平台并完善学生学业数据共享平台,实现数据互通共享和充分流动。
学生数据治理是一项复杂而长期的工作,需要多方协同努力。未来应从更新数据标准、完善学生数据采集机制、推动多源数据的深度融合、利用横向和纵向数据进行数据分析和应用等方面继续加强学生数据治理研究,促进学生数据安全、有效利用,为教育数字化转型提供强有力的数据支撑。
来源:《中国教育网络》2024年6月刊
作者:申强华、周谷、陆永隽(上海市学生事务中心)
责编:项阳