数据分类分级是开展数据安全建设的基础,也是促进数据充分利用、有序流动和安全共享的重要前提。2021年,教育部等七部门发布的《关于加强教育系统数据安全工作的通知》中明确指出:“建立数据分类分级制度。教育行政部门和学校应全面梳理本单位的数据,形成数据资源目录,准确掌握数据基本情况,做到底数清、情况明。按照数据在教育发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用造成的危害性程度确定数据等级,对教育数据实行分类分级保护。”2022年,教育部发布了《教育系统核心数据和重要数据识别认定工作指南(试行)》(以下简称《识别认定指南》),旨在指导教育系统落实核心数据和重要数据安全保护要求,规范和推进教育系统数据分类分级工作。高校开展数据分类分级工作势在必行。
数据分类分级定义
数据是指任何以电子方式对信息的记录。数据分类分级的对象通常是数据项、数据集。数据项是数据表的某一列字段。数据集是由多个数据项组成的集合,如数据库表、数据文件等。
数据分类分级的思路是数据分类管理、分级保护。数据分类是指根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好管理和使用数据的过程。数据分类的目的是能够指导数据分级,然后基于分级进行相应的安全防护和管控。数据分级是依据数据的重要程度和影响程度进行的,分级的结果就是区分出数据等级,从而进行不同等级的保护。
数据分类分级原则
第一,合法合规原则。数据分类分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。
第二,分类多维原则。数据分类具有多种视角和维度,可从便于数据管理和使用角度,考虑国家、行业、组织等多个视角的数据分类。
第三,分级明确原则。数据分级的目的是保护数据安全,数据分级的各级别应界限明确,不同级别的数据应采取不同的保护措施。
第四,就高从严原则。数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。
第五,动态调整原则。数据的类别级别可能因时间变化、政策变化、安全事件发生、不同业务场景的敏感性变化或相关行业规则不同而发生改变,因此需要对数据分类分级进行定期审核并及时调整。
数据分类分级方法
数据分类具有多种视角和维度,其主要目的是便于数据管理和使用。数据处理者进行数据分类时,可在遵循国家和行业数据分类要求的基础上,采用面分类法或线分类法从多个维度进行分类,对不同维度的数据类别进行标识。
面分类法是将所选定的分类对象,依据其本身固有的各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别,将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个符合类别。面分类法是并行化分类方法,同一层级可有多个分类维度,适用于对一个类别同时选取多个分类维度进行分类的场景。
线分类法旨在将分类对象按选定的若干个属性或特征,逐次分为若干层级,每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系,同层级类别互不重复、互不交叉。线分类法适用于对一个类别只选取单一分类维度进行分类的场景。
数据分级通过定量与定性相结合的方式,首先识别数据分级要素情况,然后开展数据影响分析,确定数据一旦遭到泄露、篡改、破坏或者非法获取、非法利用、非法共享,可能影响的对象和影响程度,最终综合确定数据级别。
教育数据分类框架
教育部在《教育系统分类分级工作指南》(征求意见稿)(以下简称《分类分级指南》)中,将教育数据分为机构数据、人员数据和业务数据三个类别,并指出各单位可以在遵循该指南的基础上结合单位实际情况细化数据分类。其中,机构数据是指可表征机构特征或描述机构活动情况的各种数据。机构数据分为教育行政部门、学校和其他机构等子类,再按业务属性分为招生考试、经费预算等方向。统计数据均纳入机构数据范畴。人员数据是指可表征自然人特征或描述自然人活动情况的各种数据,不包括脱敏、统计、标签化处理的衍生数据。人员数据可分为教职工、学生、家长和其他人员子类,再按业务属性分为学籍学历、教师管理等方向。业务数据是指机构或个人在开展教育活动时所产生的过程数据。相关教育活动结束后,业务的结果数据将归集至机构或人员数据。具有机构属性的个人信息数据,归集为人员数据;具有人员属性的衍生数据,归集为机构数据。
教育数据分级框架
根据数据在经济社会发展中的重要程度,一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人组织合法权益造成的危害程度,将数据分为一般数据、重要数据、核心数据,这三个级别是从国家数据安全角度给出的数据分级基本框架。
教育部在《识别认定指南》中将教育数据按照重要性、精度、规模、安全风险等分为核心、重要、一般三级。其中,核心数据是指在教育系统内具有较高覆盖度或达到较高精度、较大规模、一定深度的重要数据,一旦被非法使用或共享,可能直接影响政治安全;重要数据是指在教育系统内达到一定精度和规模的数据,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全,仅影响组织自身或公民个体的数据,一般不作为重要数据;一般数据是指除核心数据和重要数据之外的其他教育数据。
按照数据资产一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对个人、组织合法权益造成的危害程度,将一般数据从低到高分为四个安全级别,具体内容见表1。
表1 一般数据分级规则
中国农业大学数据分类分级实践
为探索数据分类分级如何在高校展开,中国农业大学数据中心基于学校数据安全现状,结合学校对数据分类分级工作及建设目标的需求,在理清数据分类分级工作对接部门及职责分工的基础上,以研究生系统为目标尝试开展了数据资产盘点与数据分类分级工作。此次数据分类分级工作的目标包括三个方面:首先,建立以个人信息及业务数据分类分级保护为重心的数据分类分级逻辑框架,梳理出中国农业大学研究生系统数据分类分级结果;其次,建立适应教育行业标准规范的数据分类分级保护实施制度,梳理出对标匹配、准确适用的数据分类分级结果,完善数据分类分级逻辑框架;再次,建立定制化的数据分类分级实施指南,梳理出符合中国农业大学实际业务场景的数据分类分级方法及流程。
中国农业大学数据分类分级工作涉及校园数据中心与目标信息系统所属业务部门,实施流程整体分为三个阶段,即数据资产梳理、数据分类定级、审核标识。
数据资产梳理
数据资产梳理阶段的工作先要参照《分类分级指南》中明确数据分类分级的工作原则,由校园数据中心确定进行数据分类分级的目标信息系统,并协调目标信息系统相关业务部门配合后续工作。然后,由校园数据中心人员前往业务部门进行调研,通过目标业务系统的演示及与业务部门面对面沟通等方式,了解目标信息系统的业务功能、涉及的业务数据范围、类型、数据产生和使用情况以及存储形式等情况。收集业务数据资产的相关信息,对于结构化数据资产,需要收集的字段包含业务系统数据库名、表名、表注释、字段名、字段注释等信息,对于非结构化数据资产,需要收集的字段包含非结构化数据的名称、内容、所属范围以及存储形式等信息。
此外,还需要收集目标业务系统的系统设计文档和数据库设计文档,以便校园数据中心人员能够深入了解业务功能模块,知晓业务数据含义、数据产生和数据流转情况,提高对业务系统进行数据分类分级的正确率。因为数据分类分级仅根据业务属性与业务调用关联性对数据项展开,所以不对具体数据内容做收集。
部署数据分类分级工具,并利用其数据源同步的功能收集目标业务系统产生、采集、加工、使用或管理的数据。对于结构化数据资产,业务数据资产表结构的采集方式包含两种:一种是通过人工的方式,另一种是利用工具扫描数据库的方式。一般建议业务部门采取第二种方式,这种方式需要目标业务系统建立数据库备份库,校园数据中心对其数据库备份库展开数据资产收集工作,业务部门需要提供数据库备份库的账号和密码,校园数据中心技术人员登录后获取该数据库的元数据,经过分析后梳理出该数据库所有用户表信息,包括表名、表创建时间、修改时间、表内各字段名称、数据类型等信息。如果采用第一种人工方式,则需要业务部门拉取业务数据库的表结构并提供相关的信息。对于非结构化数据资产,只能采取人工方式进行采集,需要业务部门提供的信息包含名称、内容、所属范围以及存储形式等信息。
数据分类定级
在获取业务系统表结构后,校园数据中心按照《分类分级指南》要求以及数据分类定级的流程对数据项进行分类与定级,并在数据分类定级的过程中同步更新输出《中国农业大学数据分类与参考级别》《中国农业大学数据分类分级框架》与《目标业务系统的数据资源目录》。
1.结构化数据分类
结构化数据分类的工作在《分类分级指南》的基础上按业务条线总分法结合数据分类总分法的逻辑体系结构开展,即从总业务条线出发,对业务梳理细分,完善数据分类框架;然后将细分业务的数据进行汇合,按实际需要的数据颗粒度进行细分,即可得到分类定级后的数据资产目录,这些数据细分结果为数据分级的前提条件。
数据一般因业务而产生,供业务需要使用,若无业务需求,也不会有数据的产生和消费。数据分类首先需理清业务,才能区分业务涉及的具体数据。业务条线梳理工作从核心业务条线着手,进行提炼分析,通过理清业务条线建立关键实体,最终实现全业务覆盖。
数据分类“总分”方式指数据资产的汇总与汇总后数据的按需分组,首先需要收集整理各细分业务范围内的数据资产,包含以物理或电子形式记录的数据表、数据项、数据文件等。
按照《分类分级指南》的分类方法进行数据分类,数据分类流程主要包括这些步骤:第一,确定数据来源所涉及业务范围,以及数据项在所属业务范围内的关联关系;第二,按照业务所属领域的数据分类规则,对该业务运营过程中收集和产生的数据进行分类;第三,在收集到业务系统的数据库表结构信息后,根据其数据库表信息进行初步数据归类判断,判断其与机构数据、人员数据、业务数据三个一级数据类别的归属情况;第四,确定一级数据类别后,根据其业务系统所属业务范围及数据项的内容进行二级数据归类,确认二级类别后进行三级类别的确认;第五,在进行三级类别的确认时,可根据系统设计报告明确当前表结构及其数据项所在信息系统的业务类别,根据其归属业务类别对照《分类分级指南》以及实际业务归属与划分进行。
中国农业大学数据分为学校数据、人员数据、业务数据、系统运行和安全数据四个一级子类。
2.结构化数据定级
数据定级的基本思路是根据《识别认定指南》将数据划分为核心数据、重要数据、一般数据,并将一般数据划分为3个级别,即一般数据对应1~3级,重要数据为4级,核心数据为5级。
数据定级过程包括数据资产梳理、数据定级准备、数据级别判定、数据级别审核及数据级别批准。各环节具体工作包括:第一,数据资产梳理,即对数据进行盘点、梳理与分类,形成统一的数据资产清单,进行数据定级合规性相关准备工作。第二,数据定级准备,即明确数据分级的颗粒度,如库文件、表、字段等;识别数据定级关键要素(影响对象、影响范围、影响程度)。第三,数据级别判定,即按照数据定级规则,结合国家和行业相关法律法规对数据等级进行初步判定;综合考虑数据规模、数据聚合、数据时效性、数据形态(如是否经汇总、加工、统计、脱敏或匿名化处理)等因素,对数据级别进行复核,调整形成数据级别评定结果及定级清单。第四,数据级别审核,即审核数据级别评定过程和结果,必要时重复数据级别判定及其后工作,直至安全级别的划定与本单位数据安全保护目标相一致。
表2为中国农业大学数据分级框架,其中,核心数据和重要数据与《识别认定指南》中的认定一致。敏感数据用于学校关键或重要业务,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。敏感数据的安全性遭到破坏后,对社会秩序和公共利益造成轻微损害,对学校造成严重损害,对人身和财产安全、个人名誉造成严重损害,但不影响国家安全。内部公开数据是指可在内部范围内公开流转,一般针对受限对象公开,通常为内部管理且不宜广泛公开的数据。内部公开数据一旦遭到篡改、破坏、泄露或非法获取、利用共享,对学校内多个学院、部门的业务运行造成一般损害,对个人的合法权益造成一般损害。外部公开数据是指可直接对公众公开,对社会秩序、公共利益、行业发展、信息主体均无损害,或造成轻微损害的数据。
表2 中国农业大学数据分级框架
3.非结构化数据的分类定级
在进行结构化数据分类定级后,需要根据结构化数据项中明确表示出来的可能存在的非结构化数据项与业务部门进行确认。非结构化数据主要包括图片、文件等。若包含非结构化数据,同样需要依据《分类分级指南》及此非结构化数据的内容、共享范围等对其进行分类与定级。
审核标识
完成结构化数据与非结构化数据分类定级,输出目标系统的《数据资产分类分级清单》,由校园数据中心组织专家和业务部门一起进行审核确认。如果审核通过,则此目标系统的数据资产分类定级工作结束;若审核未通过,则返回复核优化环节进行调整并再次组织审核,直至审核通过。
研究生数据分类分级
为检验上述实施路径的可行性,我们以学校研究生系统数据为试点,开展数据分级分类实践。通过对研究生系统的数据范围进行识别和梳理,利用本文提出的数据分类和分级方法,根据研究生系统的业务属性,初步搭建了中国农业大学数据分类框架(见表3)。
表3 中国农业大学数据分类框架
以身份证号为例,该字段的数据类型为个人身份信息,根据学校数据分类框架,该字段所属的一级子类为人员数据,二级子类为学生管理数据,三级子类为研究生基本信息,四级子类为个人基础信息。根据学校分级框架,该字段如果遭到篡改、破坏、泄露或非法获取、非法利用,影响的对象是个人隐私,影响的程度为严重损害,因此该字段的级别为3级,即一般数据里的敏感数据。当学生数量达到100万以上时该字段应定为4级,即重要数据。
再以研究生数据中课程类别代码为例,该字段的数据类型为研究生课程数据,根据学校数据分类框架,该字段所属的一级子类为业务数据,二级子类为教学管理数据,三级子类为研究生教学管理数据,四级子类为研究生课程信息。根据学校分级框架,该字段属于内部使用的信息,该字段如果遭到篡改、破坏、泄露或非法获取、非法利用,影响的对象是单位合法权益,影响程度为一般损害,因此该字段的级别为2级,即一般数据里的内部公开数据。
单纯依赖人工的方式进行数据分类分级,投入大、效率低。为了快速有效地开展数据分类分级工作,我们借助数据分类分级平台,通过在平台上添加数据源实现了对研究生系统数据的自动发现。另外,还建立了研究生数据分类分级规则模板,通过把数据分类分级模板导入平台,实现对后续研究生数据分类分级的自动化识别。由于平台暂时无法对所有数据完全识别,因此还需要结合人工手段对平台自动化分类分级的结果进行校验,归纳提取识别规则,将新的识别规则或优化后的识别规则配置到数据分类分级平台。
数据分类分级平台在识别规则优化后,再次进行自动化识别,以验证规则识别效果,积累规则识别经验。研究生系统的数据会一直不断变化,需要定期对研究生系统增量变化的数据进行重新识别,形成更新后的数据分类分级规则模板,以便数据分类分级平台能更准确地进行自动化分类分级。在完成数据分类分级自动识别和人工核对后,就可以通过数据分类分级平台导出研究生系统的数据分类分级资产清单并生成相应的数据分类分级报告。
总结与展望
在数据安全合规要求不断升级的大背景下,加强数据的有效保护,确保数据的安全共享和应用,已成为高校信息化建设工作的重中之重。高校数据资产数量众多,且散落在校园内各个信息系统中,摸清数据资产家底,进行数据分类分级,从而针对性地进行安全建设,成为各个高校数据安全建设的首要任务。本文结合中国农业大学研究生系统数据分类分级的实践案例,给出高校开展数据分类分级工作的思路,为高校开展数据分类分级工作提供一定的参考。
来源:《中国教育网络》
作者:虞萍、周南(中国农业大学信息化办公室)
责编:陈永杰