大数据时代一个根本性的变化,是原来的信息化时代是一个封闭世界所构建的,而我们新的信息化是一个开放世界。
现在的数据产生已经完全不只限于传统的物理社会,这使得数据产生的方式也发生了根本性的改变。简单地总结为如下几个阶段。第一,以往数据库技术所面对的数据,其实是传统的企业生产、经营过程中所产生的数据,称为运营式系统。这些数据是被动产生的,是在企业运营决策管理需要情况下产生的,数据是规范、有序的,它提出的根本要求是满足简单分析。
到了互联网时代,数据的产生方式发生了根本的改变,每一个人都可以按自己的方式把自己的数据放到一个开放空间中去,因此数据的结构变得复杂而且无序,人们对于数据的要求也变得弱化,提出的根本性讨论问题是什么?分布式处理和数据集成。
当今大数据的产生,数据源是自动产生的过程,是无所不在的感知系统源源不断地产生,呈现所谓的多元异构、分布广泛和动态演化的过程。它的挑战性在于实时分析,这是我们现有系统不能满足的。
第二个阶段,面对源源不断的数据,将其整合在一起加以利用的应用需求产生了,为此,我们提出了数据空间和数据集成的技术。其实这一技术的根本特点是完成一次抽象,即从每一个数据源的局部视图,试图改造出一个全局视图,这样,用户在一个数据源集合的时候,不再关心每一个局部数据源的情况,只需在一个全局视图上给出查询,即可求得结果,这种抽象极大地方便了人们在多数据源上的利用。
那么,大数据时代需要完成的任务十分丰富,为什么目前无法满足科学家们提出的这些需求的操作呢?原因是,我们的抽象层次没有针对性。应该基于前一个阶段的抽象,在这上面针对各类应用的需求给出一种新的抽象机制,如果这个抽象机制能够实现,那么各领域的用户就可以在这样的基础上完成其应用任务。然而,现实是,面对我们所产生的,无论是物理还是生物,还是各个科学领域所产生的数据源,专业人员并不知道如何组织它们,而我们又没有提供一个有效的工具,将它抽象成专业人员认识这些数据的需求。
科学家为什么没有得到这样可用的处理机制呢?我认为在问题的抽象上仍然存在问题。也就是说,科研过程的数据处理任务,尚未很好地凝练成一个可抽象的共识。
4 年前美国归国家线性加速器研究中心的一些学者组织了一个研讨会,将研发数据库的IT 技术人员和从事科学研究的学者聚集在一起。学者们将在其高能物理科学研究中所遇到的数据处理问题抛出来,希望寻求答案。会上互动的环节中,IT 技术人员给科学家们提出了一个挑战,他说:“如果能把你的需求明确地告诉我,我就可以还给你一个系统。”如此的一个互动,很多人认为是笑话,但是几年之后这样的系统真的产生了。他们抽象出来的是什么?他发现科研人员组织数据的方式根本不是表格,而是数组。科研数据大部分产生出来,它需要在多维的数组上去运算,这就是他们日常看待数据的一个基本思维方式。这个系统出来之后,立刻得到众多科学研究人员的喜欢,因为它提供了大量有关数组的简易操作,科研工作者们就可以像写编译语言那样简单地描述,就可以完成他原本需要很长的程序才能完成的任务。
(本文整理自中国人民大学孟小峰教授在“首届科学数据大会”上的主题报告“大数据管理与科研信息化”)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。