对比国内外教育考试数据资源应用现状,能够发现国内教育考试机构由于缺乏系统研究以及相应的基础建设,这些数据并没有及时地转化为有价值的信息,在一定程度上造成了极大的资源浪费。数据量的自然积累和数据有效应用之间存在着差距,如同面对宝库却无门可入一样。跨越这个台阶是教育考试管理机构信息化建设的重要发展课题。
2006年北京教育考试院向北京市科委申请《北京教育考试数据资源系统》课题。通过课题的研究及建设,开创性地使教育考试数据的综合应用成为现实,对“教育考试数据资源系统”的总体架构以及技术难点做解析,同时结合实例介绍了数据挖掘应用研究。以期对各省教育考试同行的数据资源系统建设提供参考。
体系结构设计
教育考试数据资源系统的体系结构如图1所示。该系统包括数据资源、数据处理、系统管理三个子系统。
数据资源子系统
数据资源子系统自底向上包括基础数据资源层,数据资源层,数据仓库层。各个层之间相互独立,并且底层向上一层提供接口和相应的数据基础。
基础数据资源层是数据资源子系统的基础数据层,它存储的数据是上面两层数据的来源。基础数据层的数据是教育考试资源系统进行处理和利用的数据全集,根据教育数据的来源特点,基础数据源层包括结构化数据和非结构化数据。
第一,结构化数据来自各个业务数据库,这些数据库是随着各类考试业务管理信息系统的构建分别建立起来的,具有逻辑上和物理上的独立性。
第二,非结构化数据主要来自业务数据库之外的其它数据源,包括各类命题资料、文档、文件等。
无论是结构化数据,还是非结构化数据都经过了多年的积累,因此包含了丰富的历史信息。
数据资源层是对基础数据源中的数据进行整合后生成的,其中的数据以关系数据表的形式组织,包括考生基本信息、学校基本信息、考试基本信息、科目成绩信息、试题类信息、文档类信息等等。数据资源层是生成数据仓库的基础,也是进行联机查询、统计、报表的基础。
数据资源库中的数据存在一定的关联性,要对这种关联性进行整理固化,形成文档,而不仅仅是存在于数据管理员大脑中的知识。这些知识可以运用在系统的综合查询、统计、以及数据挖掘中。
数据仓库层是数据资源库中的数据经过抽取、转换、装载等过程,形成的面向教育考试挖掘主题的数据集合。数据仓库层中的数据通常以星型模型或雪花模型的形式进行组织。本系统中,结合教育考试数据特点和教育考试数据挖掘主题,主要采用雪花模型。
数据处理子系统
数据处理子系统包括数据资源库生成平台、数据仓库生成平台、数据挖掘平台、资源库数据处理平台、数据可视化平台等五个部分。数据处理子系统是整个教育资源系统的数据处理中心,它不仅提供了数据管理和处理功能,而且提供了数据展现功能。
数据资源库生成平台的功能是将基础数据源中的数据根据设定的转换规则将数据转换后导入数据资源库。对于结构化和非结构化数据的操作有所不同。由于基础数据源的数据来源于多种类型的数据源,针对结构化数据和非结构化数据采用不同的处理方式。基础数据源的结构化数据也是来自不同的类型的数据源,这些数据源的数据类型和数据结构是不统一的,因此数据资源库平台设计了一系列的数据转换构件,这些数据转换构件能够把各种类型的数据源数据转换为标准和规范的数据格式,存入数据资源库。并且在转换处理过程中提供了数据的校验功能,从而保证数据在转换过程中的一致性。
考虑到教育业务数据的复杂性和多样性,除了利用数据转换构件进行数据转化,还提供了人工数据调整功能。从而保证数据资源系统的方便性与实用性。而对于非结构化数据的数据处理是根据不同类型的非结构数据源的特点,制定数据转换规则,使得这些不同类型的非结构化数据转换为标准格式的非结构数据,然后采取对象封装、关键字检索等处理方法将非结构化数据转换为结构化数据通过一系列的数据转换处理,使得非结构化数据进入数据资源库。
数据挖掘的主要工作流程包括:确定挖掘主题、生成数据仓库、建立挖掘模型。确定挖掘主题是核心,只有主题明确,才能建立高效、实用的数据仓库和挖掘模型。数据挖掘是数据仓库之上的高层应用。挖掘主题的确定、数据仓库的开发随着业务发展而不断变化与更新,提出问题—>确定挖掘主题—>得出挖掘结果是一个循环往复的过程,这保证了系统的不断扩充与完善。
数据仓库结构设计模块提供数据仓库结构设计工具,其中的自动转换功能实现资源库与数据仓库结构的自动映射,手动调整功能则保证数据仓库构建过程的灵活性。仓库数据ETL流程模块实现数据的抽取、转换与装载,自动和手动ETL过程将保证数据导入的方便性和实用性。当前数据仓库的数据量相对较小,数据间关联性强,针对数据仓库的数据进行新的一致性验证效果更好,同时可以保证下一步数据挖掘的质量。
数据挖掘是教育考试数据资源系统中的重要内容,建立面向挖掘主题的挖掘模型和选择算法之后,将数据仓库中的数据注入模型运行。模型运行结果以标准化形式输出,便于将来利用数据可视化平台进行展示。
数据处理工具集是面向数据资源库的,提供了多种数据查询,统计分析的方法。数据可视化平台针对不同挖掘主题和挖掘结果提供图、表等多种直观展示方式,从而使挖掘结果得到更好的理解和应用。在数据可视化平台之上,最终形成面向不同类型用户的应用系统。
系统管理与维护子系统
系统管理与维护子系统包括三个模块。第一个模块是用户管理子模块 ,这个模块实现了用户信息的管理与维护以及基于角色的权限管理,它是教育资源系统的权限管理应用中心。第二个模块是元数据管理子模块,这个模块实现了对元数据的管理与维护,而元数据记录着数据资源库和数据仓库的结构及数据之间关系,因此这个模块是整个系统正常运行的保证。最后一个模块是日志管理子模块,这个模块是用面向切面的方式实现的,因此在任何一点上都能够灵活插入日志跟踪点,用户可以根据自己的需要灵活地修改日志跟踪点。不仅如此,这个模块还实现了对数据资源库和数据仓库的日志分别进行维护,保护系统数据的安全性、完整性。
体系结构及特点
体系结构采用分层架构
系统架构描述了资源系统的组成部分以及各个部分的相互关系,在后续教育考试数据资源系统建设过程中起主导作用。体系结构设计时按照功能特性实现了分层架构,分层的架构体系不仅增强了各层之间的独立性,减少了模块间的耦合度,而且提高了系统的复用性和可扩展性,这样有利于系统的维护和完善。
构架同时将数据资源库与数据仓库、一般查询统计分析与数据挖掘分析分离,充分考虑了存储与应用实现的差异,建立了可灵活定制的架构,便于系统循序渐进地完善。
数据组织中采用雪花模型设计
数据仓库主要以星型模型或雪花模型组织数据。一个星型模型包括一个事实表和一组维度表。事实表描述挖掘主题的多个角度,位于星型模型的中心;维度表则从不同角度详细描述挖掘主题的相关数据,环绕在事实表的周围。雪花模型是星型模型的扩展模式。雪花模型中,对应星型模型的维度表被分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表与事实表间接关联。
与星型模型比较,雪花模型也能够在数据库数据之间建立简明清晰的关系,同 时,通过建立多级维度表,还具有如下优点:第一,降低数据仓库冗余度,保证数据仓库中数据的一致性,减少数据仓库的数据量;第二,方便实现基于灵活粒度的数据挖掘。在结构设计过程中,结合教育考试的实际情况,设计采用雪花模型,实现不同维度、不同粒度的数据挖掘。
采用“标准分级、管理授权”策略
为整个系统提供了规范、灵活、易于扩展的各类业务资源标准。由于教育系统本身没有统一的标准规范,造成了不同地方不同时段的教育数据标准都存在着很大差异性,因此在资源标准建立设计过程中,采取“标准分级、管理授权、逐步完善”的策略,对于各业务统一的标准规范建立了公共标准体系,而针对不同的业务,系统则提供了业务标准体系。
标准管理工具将公共标准体系和业务标准体系进行了统一的管理并且实现了标准的权限管理。只有拥有权限的拥护,才能够管理相应的标准。不仅如此,当满足一定的转换条件,公共体系标准和业务体系标准可以进行相互转化。这样使得资源标准在建设中能够实现“动态扩展、配置管理、分类授权、灵活引用。
跨平台的数据迁移工具
教育考试数据来源于多种类型的数据源,每种数据源的数据格式、数据类型等方面都存在着很大的差异性,所以数据迁移工具包括多种数据源转换构件,通过制定各种迁移规则和迁移方案,把一种数据源的数据迁移到另外一种数据源。
确定跨平台数据资源迁移工具的各项业务需求和技术要求,其中包括跨平台支持能力、异构数据源整合能力、迁移规则管理、迁移方案复制、迁移过程监控、迁移结果审计等多项功能要求和技术指标。
对非结构化数据进行整合
建立了将命题资料数据、试卷试题、文档等非结构化数据转化为结构化数据的标准,使得各种类型的结构化数据和非结构化数据集成在一起,构成了一个完整的教育考试数据资源库。
在对非结构化数据进行整合时主要采取两种方式:一是通过将已有的非结构化数据进行对象封装,并对该对象的各项属性参数进行描述,从而形成具有结构化属性的半结构化数据,通过这种方式可以实现对非结构化数据的结构化使用要求;另外是将非结构化数据在整合进入非结构化资源库的过程中,对其进行关键字搜索,并将搜索结果存储在统一的非结构化数据的关键字描述信息表中,便于日后的查询和检索。
成果及经验分享
北京教育考试数据资源系统的研究和建设虑了实际应用现状和需求,确立了以标准为指导,以平台为基础、以数据为核心、以安全为保障、以应用为目的的系统框架建设原则。建立了高可靠、高可用、高可控、高内聚、松耦合的应用基础支撑平台,对于各省市考试管理部门同类系统的研究和开发,提供了可参考可利用的借鉴价值。
1.结合北京教育考试院的需求及数据特点,开创性的研究建立了2个方面的数据转换标准:
结构化数据的转换标准:系统首次在保留历史数据原状、不影响正常业务开展的情况下,建立起统一的数据转换标准,建立系统查错、纠错功能,通过数据迁移规则。实现数据的统一转换,成为统一结构、统一标准,可扩展、可查阅、可灵活定制的数据资源。
非结构化数据的标准处理:教育考试的数据信息中存在大量文档型、试题型的数据类型。系统首次研究建立了实用的非结构化数据的转换标准,从技术上充分实现了不同类型、不同科目、不同地区、不同年份试卷的调用、查阅、组卷、分析等应用功能。
2.系统首次应用数据资源,研究改造了适合教育考试实际的数据算法、数据挖掘功能,并建立了数据挖掘系统原型。首次对“高考流失生去向分析”等实用性应用课题进行了数据挖掘分析。为今后教育决策分析开辟了应用途径。
3.系统的整体研究、开发和实施,体现了低成本、高效益。充分应用XML技术、RDBMS技术以及FORM建模技术的结合,综合应用数据指标技术、数据表单技术、数据智能分析技术、数据服务技术、数据信息技术等,为多方面的实际应用提供了快捷、便利、灵活的操作平台。
北京教育考试数据资源系统的建设,从根本上解决了海量历史数据的采集、存储、管理和应用的重大难题,使教育考试管理从单纯完成招生考试的业务活动,向科学决策、科学管理迈进一个台阶;使得原先潜在的无法涉及的决策元素成为可供实际应用的科学依据;使得原先局限于专业管理部门独享的数据资源成为可供社会需求应用的共同资源。数据资源系统的广泛应用将在各个方面体现出它的社会效益和经济效益。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。