随着计算机技术和信息技术的发展,高校各业务管理系统经过多年的运行和使用积累了大量数据,包括大学生在校期间学习生活等各方面的详细数据,其中部分因素对就业有着或多或少的影响。可以利用对大数据的挖掘和处理得到海量数据里面蕴含的有价值的数据。
基于以上背景,本文针对大学生就业过程中亟需提高就业服务质量,提升就业数据的信息价值问题,以及大学生就业之前的求学过程中有利于就业的个性化发展问题,建立影响因素的数学模型,并用于就业工作的改进,包括就业时根据个人情况的就业方向和就业单位的个性化建议以及求学过程中根据个人就业意愿对个人发展的建议等。
数据收集
1.数据的收集范围
本文以大学生就业为研究对象,最终要根据建立的数学模型对学校就业政策提出建议,对大学生就业和就业前的发展提出建议,所有与之相关的所有数据都在收集的范围之内。收集的数据经过处理之后,其中影响比较大的因素作为主要研究对象。另外,在此过程长期的运行中,各因素的影响程度会有所变化,建议也要随着实际情况而动态变化。
各相关数据存在于学校不同部门的业务系统中。其中招聘信息和学生就业信息在学生就业系统中,学生基本信息、成绩等信息在学工和教务系统中,校园卡消费信息在财务系统中,图书借阅信息在图书馆系统中,学生日常上网信息在网络计费系统中,学生科研信息在科研信息系统中。
2.数据的收集和存储
由于各个业务系统都是相对独立的,所以数据不仅是分散的,其记录方式和格式也都各不相同,为了解决这个问题,先建立数据中心,再将数据中心的数据库与各个业务系统的数据库对接,实现数据的同步,将分散的数据复制到数据中心统一存储,并在同步的过程中建立好对应关系,在数据中心的数据库中按照便于处理的形式进行存储,例如:同一字段在不同的业务系统中其存储格式是不同的,那么数据中心会指定一种标准的存储格式,并在数据库同步的过程中将不符合标准的数据进行对应的格式转换。
数据处理
搜集的数据将作为数学模型的输入和输出进行运算,数据的质量好坏在一定程度上影响了数学模型能够优化到的程度的高低,所以在进行计算之前,要对数据进行质量的优化即数据清洗和数据规范化。
1.数据清洗
数据清洗就是把“脏”的部分数据“洗掉”,发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来并包含历史数据,有的数据是错误数据、有的数据相互之间有冲突,此类错误的或有冲突的数据称为“脏数据”。需要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
2.数据规范化
数据规范化包括数据数值化和标准化两步,先对非数值部分的数据进行数值化处理,然后再对所有数据进行标准化处理,得到的数据作为数学模型的数据基础。
3.数据数值化
数据数值化顾名思义是针对那些不是以数值来存储的数据,要将其以一定的规则转换成数值,方可作为数学模型的数据基础,便于进行计算。例如就业结果数据的数值化过程见表1,对于不同的指标分别将其非数值的数据按照统一的标准一一对应成为数值,数值并不代表何种实际意义,只是为了便于运算。
4.数据标准化
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
例如某门课程的成绩t1取值范围是从0至100,另外一门课程成绩t2的取值范围是从0至150,在直接使用数据进行运算时会造成权重的不均衡,所以按公式1进行处理得到t1‘和t2’,其取值范围都是0至1且代表某成绩样本在取值范围中所处位置高低的百分比。
应用公式:t‘=t/(tmax-tmin)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。