在网络普及广度和深度逐步增加的时代,校园网成为高校师生日常使用频次很高的一个接触点、聚集地,每天会由此产生大量的数据。想不想知道哪个星座哪个系的最爱上网呢?本文通过爱上网的互联网“原住民”在校园网登录日志数据的分析,对用户属性与上网时长相关性的探索,来了解和关注互联网“原住民”,并绘制出进一步清晰的互联网“原住民”画像。每一张画像,都是有价值的,能够为管理部门的管理决策支撑起到一定的参考作用。
用户画像技术(做框起来的图表)
用户画像是用户的标识,用来认识用户并确定如何对待这些用户--他们喜欢什么时候上网、在哪儿上网、买的哪个套餐最多、是夜猫子还是起得早。比如说一个用户:男,19岁,大一,每个月上网消费200元,总喜欢晚上上网,总喜欢在宿舍上网,喜欢看电影。这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。如果用一幅图来展现,即如图1所示。
用户画像技术是指将用户标签化的标签内容进行拆解,利用数据挖掘技术针对用户画像标签内容进行处理,最后得出标签的数据模型并将数据进行语义翻译解释后描述用户特征的一种分析技术。
用户画像的核心工作是为用户打标签,这些标签也是用户数据分析的基础字段,按照展现这些标签指标,将所需要的数据建立数据仓库,根据不通的标签主题建立相应的数据集市,通过每个数据集市分析出用户的一个或者多个标签项最后展现出来,本文通过将校园网6年记录的8000万条上网日志数据以及数据中心中用户的属性数据作为研究基础,针对此次画像建立一个数据仓库,按照用户生肖、用户星座、用户院系、用户部分上网时段、用户生源地等标签属性建立5个数据集市,利用ETL工具将指标数据化,最后利用数据挖掘算法中的概念对数据进行分析。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。