高校数据治理的关键点是什么?如何让数据赋能高校高质量发展?人工智能等新兴数字技术发展日新月异,给高校数据治理带来哪些影响?中国石油大学(华东)信息化建设处副处长杨爱民、华中科技大学网络与信息化办公室副主任吴驰、郑州科技学院信息化建设与管理中心主任李振峰就高校数据治理话题进行了深入探讨,强调了数据治理的赋能作用,并肯定了数据治理的“智能化”发展趋势。
数据的赋能作用
数据赋能高等教育三大职能
在谈到数据治理的目标时,来自高校信息化部门的专家不约而同地指出“赋能”这个关键词。
李振峰表示,数据治理是高校教育治理的一个组成部分。高校数据治理的目标是要为管理决策、教学决策、学习决策、评价决策赋能,让“因材施教”成为可能,使国家和社会发展与学校人才培养之间的“供需适配”更为紧密,使管理的“提质增效”更加凸显,使数据要素在服务学校高质量发展上发挥价值。
“数据治理不是为了治理而治理。”杨爱民表示,高校数据治理的核心是用数据赋能教学、科研、管理、服务、决策等学校多场景的应用,解决用传统常规手段难以解决的问题,推动工作上水平、提高效率、提升师生体验。
吴驰表示,高校数据治理要充分发挥数据价值,支撑管理服务水平提升、为科学决策提供支持,促进学科发展。
杨爱民认为,数据治理的赋能作用体现在三个层面:从支撑高校职能的层面讲,数据治理应该完成“数据+人才培养、科学研究、社会服务”,推动高校三大职能的支撑和提升;从学校的治理层面讲,数据治理应该完成“数据+服务、管理、决策”,将数据治理打造成高校治理新引擎;从具体实施的层面讲,数据治理应该完成“数据+多元的应用场景”,借助数据治理,深度挖掘用户需求,创新业务应用场景,横向拉通部门之间业务数据,因应不同业务场景搭建数字应用平台,实现工作协同,对业务部门进行数据赋能。
以逆向思维推进数据赋能
谈到如何让数据治理赋能,吴驰认为,要发挥数据作用,实现数据全方位、全过程、全要素、全场景赋能,就要解决好三个层面的问题:一是基础问题,即数据自身的采集、质量、交换、安全、隐私保护等问题;二是应用问题,即与业务深度融合的数据分析、挖掘等高质量应用服务开发;三是支撑问题,即通过高质量数据应用服务支撑和推动各项教育事业高质量发展。
李振峰认为,要实现数据赋能,应该从价值输出的角度逆向思考,明确所需的模型和数据。“这要求我们基于学校实际需求进行数据采集、清洗、管理、共享,明确权责,并将工作流程制度化。”他表示。
李振峰进一步提到,首先,要确保决策者具有数据意识,明白任何一项决策都要有数据支撑、由数据驱动。其次,为每一项决策建立科学模型,明确所需输入的数据类型、各项数据的比重以及数据之间的逻辑关系,并经过反复验证和修正优化模型。然后,基于已建立的模型,汇聚清洗后的数据,再逆向推回到数据采集阶段,明确需要采集哪些数据以及数据应满足的限制条件。
那么,要推动数据赋能,未来,高校要在哪些方面发力?吴驰表示,一是在夯实数据基础的前提下,进一步提高数据治理的深度与广度,为高校数字化提供有力支撑;二是迅速补齐数据安全防护和隐私保护的短板,建立健全防护体系,研发技术平台;三是进一步丰富数据应用,建立示范性样板。
数据治理的关键
建立“联邦制”治理合作机制
为实现“赋能”价值,数据治理的关键在哪里?在调查和采访中,我们发现,高校数据治理可以从以下几个关键点抓起:
一是完善体制机制。杨爱民表示,要建立一套“联邦制”的数据治理合作机制。数据治理是一项复杂的系统工作,必须建立一套学校信息化部门、数据治理公司、业务部门三方面共建、共赢机制,以利于数据治理工作的可持续发展。吴驰表示,数据治理是全局性工作,应该在做好顶层设计的前提下系统性推进,明确参与数据治理各单位的责权利。
二是制定管理规范。杨爱民表示,要制定适合学校实际情况的数据管理办法,科学、安全、规范地采集、管理和使用数据。吴驰表示,要建立配套制度,通过制度明确数据治理的原则、流程、规范等。
三是做好质量管理。吴驰表示,要通过有效措施持续进行数据质量监测和改进,保证数据的准确性、及时性和可靠性。
另外,增强观念意识和组建专业团队也是推动高校数据治理的关键所在。杨爱民表示,学校要高度认可数据治理的重要性和必要性,在人财物等方面给予信息化部门全方位的支持。另外,要建立一支高素质的专业队伍,从学校信息化规划部门、信息化建设实施部门到其他二级单位的三级信息化专职队伍,确保学校数据治理工作可以实现“顶天立地”,保证数据治理工作从规划、实施到日常的运维。
在治理动态过程中把好质量关
“只有高质量的数据才有助于赋能学校高质量发展。”在谈及高校数据治理的关键点时,数据质量管理的重要性被反复强调。
吴驰表示,数据质量的提升是一个动态的过程,要在数据治理的动态过程中,持续把好“质量”关。首先,在数据采集时,就要思考如何保证所采集数据的真实性、准确性和完整性,尽量避免无意义、无法核准校对的数据采集。其次,在“通-用-准”三个阶段,持续促进数据质量提升。数据只有联通才能有效使用,只有不断使用才能不断校准,要将“一数一源、源头修改”“谁产生谁负责”这些简单而又实用的原则通过制度、平台真正落到实处。
“总之,要让数据与业务深度融合,形成正反馈。”吴驰表示,要以数据治理促进业务治理,通过业务治理提升数据质量。
杨爱民也肯定了数据来源和业务驱动的重要性。他认为,可以从以下三方面确保数据质量提升:
第一,科学管理,一数一源。确保每个数据项只有一个权威的来源部门,由该部门负责该数据的采集、录入、审核和更新,确保数据的完整性、准确性和一致性。
第二,统一规范,数据标准。数据标准是指为了保证数据质量、便于数据共享交换和有助于数据的管理和维护而制定的一系列规则和要求。数据标准通常包括数据格式、数据命名规范、数据定义、数据分类和编码等内容。
第三,应用驱动,保证准确。提升数据质量要注重“应用驱动”,将数据应用于解决多个现实场景工作问题,促进同一数据在不同场景的应用,从而发现数据质量问题,并在数据源加以改正,确保数据的常用常新,持续提升数据质量。
坚持目标导向和问题导向相统一
李振峰指出,治理一定是以问题为着力点,以目标为着眼点。数据治理也一样,要坚持目标导向和问题导向相统一。“目标是指南针,问题是突破口。要清晰地知道目标是什么,问题在哪里,难点在哪里,关键点在哪里。”李振峰表示。他进一步分析了高校数据治理的目标、问题、难点所在:
高校数据治理的目标就是要为决策“赋能”。这里的决策不限于学校领导决策,而是涵盖职能处室决策、科长科员业务决策、学生就业规划、学生选课决策、教师授课决策、评价决策等每一个高等教育发展中或大或小的决定。
根据相关调研数据,目前高校数据治理存在的问题可以归纳为:数据采集不全面、数据及时性不足、数据共享受限、数据来源不唯一、“依靠数据决策”代替“依靠经验决策”的模型缺失,以及数据综合价值输出不明显。
通过近年来的实践工作,总结数据治理的难点在于:适应数字赋能高质量发展、数据驱动决策的高等教育治理新生态尚未形成,学校内部与数据治理匹配的体制机制转型动力不足,确保长效推进的数据治理标准规范尚未形成,以及由数字化转型带来的权责再分配的压力较大。
图1 数据治理、数据管理、数据质量管理关系示意图
“数据治理一定要在问题明晰、目标明确的基础上,厘清数据治理、数据管理和数据质量管理的关系(图1),”李振峰表示,“关键在于数据是否可信,模型是否科学,过程是否安全。具体来说,首先,确认数据的全面性和可信度;其次,确认面向结果的价值输出是否可靠,也即支撑高校主要业务决策的模型是否科学;然后,确认数据治理的全过程是否安全可控。”
AI如何影响数据治理
人工智能:数据治理的革新力量
“高校数据治理工作是一个复杂的系统性工程,只有起点,没有终点。当前,人工智能(AI)技术日新月异的发展为数据治理带来了新的机遇和挑战。”杨爱民提到。他表示,未来几年,高校应勇于探索和优化人工智能在数据治理中的应用,特别是借助人工智能技术加强对物联网数据等非结构化数据的治理和应用,以实现更高效、更智能的数据治理,让“AI+数据创新场景应用”赋能学校高质量发展。
“高校数字化建设应推动数智融合,深度挖掘数据要素价值。”李振峰表示,从逻辑上讲,数据治理是手段和过程,人工智能(AI)应用是目的和结果,但二者又是互补增进的关系。数据治理是提升人工智能应用水平和高质量数据价值输出的前提;人工智能应用效果、价值输出的质量是验证数据治理成败的试金石。与此同时,人工智能的技术力量又能促进数据治理更高效、更有针对性。
谈到数据治理的“智能化”趋势,吴驰用了一个“新”字来概括。他表示,一方面,数据是人工智能实现的核心基础;另一方面,人工智能给高校数据治理提出了新要求。
“这个新要求是:更深入、更广泛、更准确,”吴驰进一步表示,“当然,可预见的,人工智能技术本身也会被更广泛地应用到数据治理领域,为数据治理提供新技术、新手段。”
AI+数据创新场景应用推动赋能
杨爱民提出了“AI+数据治理”的几个探索方向:
一是探索利用大模型技术,借助机器学习生成数据质量规则,完成数据格式转换、数据转换、数据清洗等治理工作,减少人力投入,提高数据治理质量和效率。
二是依据数据质量标准和数据质量规则,利用人工智能技术自动生成数据质量检查规则,完成数据仓库中数据质量的自动检验,生成数据质量报告,指导权威数据源单位改进数据,不断提升数据质量。
三是利用人工智能技术帮助数据管理者监测和预防数据泄露,确保数据的安全性和数据共享的合规性。通过“AI+数据治理”,让人工智能代替人做大量数据治理工作,把数据治理人员从繁琐的重复性劳动中解放出来,让数据由“能用”向“好用”转变。
在人工智能技术的加持下,未来应重点把握哪几方面工作,继续推动数据赋能高校发展?杨爱民进一步表示,高校应在以下三个场景探索数据赋能工作:
一是“AI+IOC(智能运行中心)数字平台”建设,即借助IOC数字平台,实时和无感知采集确保学校正常运行的物联网数据,实现学校运行物理状态在数字世界的直观展示,利用人工智能技术提升对学校日常运行状况的洞察能力,从而使管理者能够对突发事件快速做出响应,提高学校运行效能。
二是依据学生在“德智体美劳”等方面数据,以及学生在校期间学习和生活的行为数据,对学生进行精准画像,通过人工智能技术精确分析学生,从而在学生就业、评奖评优、学生管理过程中把学生信息利用人工智能精准和及时地推荐给组织单位,极大地提高工作效率和个性化的服务体验。
三是利用课堂教学视频数据、教材数据、教学PPT中的数据,借助大模型技术和人工智能技术,自动生成知识图谱,为人才培养、专业建设、学科提升提供持续的数据赋能。
人工智能应用倒逼治理走深走实
李振峰表示,数智融合可以从两方面来看。
一方面,人工智能是数据治理价值输出的载体。
李振峰表示,数据治理作为过程、手段,必然要瞄准价值输出。“可以说,没有目的、缺乏明确价值导向的数据治理是劳而无功、华而不实的。”而人工智能应用作为数据价值输出的一种形式或载体,让数据的价值变得可感知、可量化,更直观地赋能学校的高质量发展。
“长久以来,高校收集并存储了大量数据。但这些数据没有可感知输出,无法发挥价值。这也是一直以来为人诟病的现象:数据在仓库中‘睡大觉’。”他进一步分析,这个仓库堆了很多东西:有价值含量高的数据,如成绩单、缴费记录;有数据体量大价值密度低的数据,如视频监控数据;还有结构化二维表数据,以及未经格式化的凌乱的日志数据。“如果数据治理仅仅是将这些数据格式化清洗,分类码放,存放整齐,那它仅仅还是一串串的‘01’字符串。”
他以无线AP(接入点)上网日志记录为例进行说明。如果只经过浅层次的清洗入库,形成一条条用户上网记录,是没有高价值输出的;但如果将多个位置区域AP点的记录对应到虚拟地图上,形成学生的轨迹数据,就有了输出价值。比如,将“性格孤僻”模型做出如下假定:采集学生用户的特定轨迹,结合相关条件,判定是否为疑似性格孤僻;将疑似性格孤僻用户的心理测评数据和体育锻炼及体育测评数据相互印证,给出相应的预警信息;管理人员进行实际核验,识别出可能需要心理干预的学生群体,再有针对性地进行相应决策。
李振峰认为,这表明散落在仓库中的数据经过治理,才有了价值输出。“没有价值输出的数据治理是没有灵魂的。而当下,人工智能应用就是最好的价值输出载体。”
另一方面,人工智能将加速数据治理进程,促进数据治理更高效。
李振峰表示,正如疫情冲击加速了高校数字素养提升和基础设施升级一样,人工智能技术飞速发展带来的冲击也将推动高校数据治理向更高效、更精准的方向发展。
他介绍,在国内高等教育领域,不少头部高校已经在尝试搭建教育领域的私有模型:为管理者打造AI助理,为教师打造AI助教,为学生打造AI学伴。“要实现这样可感知的输出愿景,就要求这些AI必须掌握足够全面、准确的数据。只有足够多的输入数据、足够多的参数,才能名副其实的‘智能’。”
“总的说来,教育信息化发展到需要可感知输出的阶段,而人工智能应用将以肉眼可见的方式赋能学校高质量发展。高度智能的AI助理、AI助教、AI学伴,这些人工智能应用作为可感知输出的载体,必将倒逼数据治理走深走实。”李振峰总结道。
来源:《中国教育网络》2024年6月刊
整理:项阳