高校数据治理现状
从2020年国务院将数据定位为数字经济时代的新型生产要素,到2023年国家数据局的组建,数据已经成为新时代各个领域创新发展的原生驱动力。随着国家层面教育数字化战略行动的提出,各高校都在积极探索推进数字化转型。数据作为新型生产要素,其在高校数字化转型过程中发挥着重要的作用,通过数据要素赋能高校各项事业发展,成为高校数字化转型的突破点。
数据要素赋能离不开牢固的数据根基,这不仅要求数据有量的积累,更要求数据有质的保障,只有高质量的数据才能充分释放要素潜能,赋能于高校各项事业的发展。但是对于高校数据本身而言,仍然存在着数据内容缺失、错误、不一致等质量问题,这成为影响高校发挥数据要素效能的关键因素,开展高校数据质量治理工作迫在眉睫。
高校数据质量治理是高校数据治理框架下的重要工作内容,其侧重对数据全生命周期中可能出现的数据质量问题进行识别和监控,并通过改善管理流程、技术手段等一系列举措来使得高校数据质量得到进一步提升。
数据质量概念的提出最早可以追溯到1958年,它表示数据满足用户特定业务场景需求的程度,具体表现在规范性、完整性、准确性、一致性、时效性、可访问性等多个维度的属性。数据质量是一个相对性的问题,不同的业务场景下,用户对于数据质量的需要不尽相同,只要数据能满足特定业务场景的需求,就可以说数据质量符合要求。
高校数据质量问题表面上看是由数据录入不规范引发的,但深究其成因,我们发现影响高校数据质量的因素可以归结为管理因素、技术因素、业务因素三大方面,具体有管理体系不健全、制度建设不完善、职责分工不明确、数据梳理不清晰、数据采集不规范、数据共享不充分、业务理解不到位、工作流程不稳定等表现。
高校数据质量治理思路探析
高校开展数据质量治理工作,就需要从根源上解决这些问题,从管理、技术、业务等角度多管齐下,打造全面综合的治理体系,并将治理工作形成系统化、持续化的闭环工作模式,长此以往,高校的数据质量才能得到有效提升。如图所示,高校进行数据质量治理可从如下几个方面开展相关工作。
组织和人员建设,让治理工作有保障
高校数据质量治理不是一项单靠信息化部门就能够单独完成的工作,需要利益相关单位构建一个稳定的组织机构,在组织架构下开展分工与合作,形成合力共同开展数据质量治理工作。
目前,高校基本都成立有网信领导小组等组织机构,应该将数据质量治理的工作内容纳入机构工作范围,从领导层面对数据质量治理工作形成统一认知。
同时,我们也要看到,数据质量治理是一项具体明确的工作,需要有一线人员来负责落实,所以高校应成立数据质量专项工作小组,由学校信息化部门的技术人员及相关部门的系统管理员/业务负责人构成。通过专项小组的建设,实现技术和业务的融通,落实数据质量管理相关工作,收集、核对数据质量问题,制定数据更新计划,在整个数据生命周期内解决数据质量问题。
图 高校数据质量治理工作框架
完善制度机制,让治理工作有据可依
高校数据质量的提升需要通过数据问题整改来实现,这一工作需要交由数据源头单位来完成,所以必须要从管理制度、流程机制上将相关责任明确到位,推动数据得到有效整改,高校应将对数据质量的相关要求明确写入学校《数据管理办法》中,明确数据相关部门的权利与义务,规范数据质量治理的要求和流程,使得数据质量治理相关工作有据可依和有序推进。
同时,考虑到不同业务对于数据质量的要求不尽相同,所以有必要针对每个业务单独制定《数据质量管理规范》《数据质量技术规范》等文件,规范业务系统的数据质量标准,明确数据负责人和数据维护人角色及相关职责,明确数据录入、维护、删除的操作规范和相关机制。
梳理数据,让治理工作明确范围
高校应从业务角度出发,梳理数据流向、分类情况和数据间关系等内容,明确基础数据、衍生数据等分类,形成包含人员身份、教学科研、资产设备、服务保障等在内的数据资源目录,准确掌握高校数据基本情况,做到底数清、情况明。只有先梳理清楚目前高校的数据情况,才能从中找出关键突破点,并根据数据的不同分类,选择不同的提升数据质量的方法。
数据梳理工作完成后,高校信息化部门应遵循“一数一源”的原则编制数据资源目录,形成可视化的数据资产清单。高校数据资源目录不仅是后续开展数据分类分级的前置工作,同时也能够实现快速的数据溯源。
统一数据标准,让治理工作规范开展
统一的数据标准是高校数据质量治理工作的基础,也是数据质量评价的重要依据,高校越早统一数据标准,后期的数据质量治理成本就越低。
教育部已经发布《教育管理信息教育管理基础信息》《教育管理信息教育管理基础代码》等标准规范,高校可在教育部标准、行业标准基础上,结合学校自身实际业务情况,遵循可行性、合理性、可扩展性、规范性等原则来制定数据标准。
考虑到数据标准也是要应用在各业务系统中才能实现统一标准,这就要求高校在采购系统供应商服务时,不仅要考虑其技术能力及业务成熟度,还需要考虑其数据架构对现有数据标准的兼容性。
规范数据采集,让治理工作变得简单
规范数据采集主要包含两个方面,一是从管理上规范,避免不同业务系统重复采集相同数据;二是从技术上规范采集过程,避免采集过程中出现脏数据。
通过技术手段来规范采集过程,需要业务系统在采集数据的时候,针对重要数据进行完整性、一致性等质量监测设置,达到能让用户选择的就不要让用户去填写的效果,对数据的前后内容进行验证,严格按照数据标准来进行采集,避免出现数据采集错误或者不按标准采集数据的情况,同时在系统设计中,也要对数据删除权限进行严格管控,避免数据出现不一致。
数据共享共用,让治理工作有侧重点
基于数据共享平台,可以将数据推送给有数据需求的业务系统或者数据门户、一表通等数据服务平台,将数据充分应用到职称评审、年度考核、评奖评优等关注度比较高的业务中,增加数据应用场景和数据服务力度。
数据利用的频度高了,问题数据的曝光率也随之增加,从而催生个体进行数据修正的驱动力,待数据问题在数据源头修正后,数据质量也就随之得到提升。
通过数据的共享共用,一定程度上可以避免因为数据重复采集导致的数据不一致的情况。另外,共享共用,也是为数据找到业务驱动的过程,由业务驱动,数据质量就更容易得到提升。
建立考核评价体系,让治理工作有抓手
建立数据质量考核评价体系是高校实施和贯彻数据质量治理相关标准、制度和流程的抓手。实际操作中,可以根据高校的具体情况明确牵头部门、辅助部门和考核主体,建立考核制度和认责体系,设置考核指标和考核办法,并将考核要求纳入年度部门考核中,督促相关单位加强数据质量管理并及时整改数据质量问题。
考核指标可由两部分组成:一部分是对数据生产、管理和应用情况的评价,另一部分是对数据质量的评价。
对于数据质量的评价可以通过如下步骤开展:一是明确数据主体所涉及的质量属性。二是根据质量属性编制对应质量评价规则。三是根据数据主体的应用场景,为数据质量评价规则设定权重。四是执行评价规则,采用定量评价与定性评价相结合的方式对数据主体进行质量评价。
作者:杨树春(对外经济贸易大学网络安全和信息化处)