“大数据的价值不仅仅体现在‘大’上,与普通数据相比,它最大特点是带有时间戳。”
陈纯 浙江大学教授、中国工程院院士
什么是时序大数据?
大数据时代的到来使得领域和行业边界愈加模糊,数据无论是对于国家、高校还是个人来说,都成为了关键的资源。在互联网以前,我们只有人类社会和物理世界,然后才有了数据产品及信息空间。在信息空间中,云计算、人工智能、VR/AR都产生了大量的数据,但需要注意的是,大数据的价值不仅仅体现在“大”上,与普通数据相比,它最大特点是带有时间戳,这就为实时进行大数据的智能处理提供了可能。
时序大数据就是批式大数据加上流式数据,这些带有时间标签(按照时间的顺序变化,即时间序列化)的数据可以形成带有时间顺序的关系图谱、关联图谱。
分析计算结合智能模型,便构成了时序大数据实时智能技术架构,可以进行实时采集、实时加工、实时分析、实时决策,也即智能决策平台的实时决策。研发具有快速、高效、智能且自主可控的时序大数据实时处理技术与平台,面临诸多技术难点。
关键技术一:
面向复杂网络统计指标的增量计算。大数据的分析,一些统计指标特征计算是非常重要的,均值、方差等。简单算法、静态取数、容器类算法、复杂算法、CEP等分别如何实现?增量计算中如何进行退单等常见场景的逆向计算?事件乱序抵达如何确保增量计算的结果一致?这些数理统计算法中的增量计算、可逆计算、乱序计算等问题需要考虑。
关键技术二:
面向网络时序数据处理的动态时间窗口。时间窗口需提供滚动、滑动的漂移能力,支持长周期时间窗口的动态精度控制,支持基于弹性时间窗口的实时ADHoc查询。
关键技术三:
网络事件序列识别技术(复杂事件处理CEP)。事件模式的增量匹配、叠加通用算法的增量统计等支持CEP的增量匹配及数理统计问题。
关键技术四:
动态网络图谱的实时分析计算。时序图谱的极速增量建图,时序图谱的分布式处理及面向时序图谱的查询语言。大规模时序图谱如何提供百万tps的建图能力;在时序图谱的分布式处理,10亿顶点,100亿边(10亿时序复杂边)的前提下,3层以上查询如何控制在秒级;大规模时序图谱秒级地图搜索(最短路径、Page Rank、Louvain、LPA等)能力;面向时序图谱的查询语言,支持动态时序图谱的时间维度AdHoc查询分析能力。
在时序大数据实时智能处理技术这套完整的技术体系里,需要融合实时指标计算、智能学习、智能决策、关联图谱四大平台子系统,来提供全方位的知识产生与知识应用能力。实时指标平台需要解决从原始的流水到指标的实时计算和指标的快速存储、快速读取问题;同时,也要有底层技术来解决实时的指标采集和清洗问题。
关于高校网络安全,当前的高校网络自动化场景包括账号系统撞库攻击,数据恶意爬取攻击,公平性破坏攻击等,而时序大数据实时智能处理技术在这些方面都将发挥越来越大的作用。
(本文刊载于《中国教育网络》杂志2020年1月刊,根据浙江大学教授、中国工程院院士陈纯在 CERNET 第二十六届学术年会上的讲话整理,未经本人审阅,整理:王世新)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。