资源环境科学大型仪器区域中心数据共享

主讲:张耀南 中国科学院大学研究员

在大数据环境的背景下,如何利用大数据支撑地学科学研究?作为地学研究的西部大省,如何去支撑这样一个研究?在大数据环境下,地学研究的思维模式应该发生怎样的变化?在谈及大数据的情况下,要谈的就是研究方式的变化和数据资源的增加,以及数据科学的发展。

  今天我给大家介绍的还是我们在大数据环境的背景下面,我们怎么利用大数据支撑地学科学研究。我做一下我们工作的一些思考和认识的介绍。

  刚才程老师做了一个非常好的报告,从宏观上介绍了大数据。我从具体工作当中做一下我们的一些体会。在大数据的背景环境下,作为我们地学研究的西部大省,我们怎么支撑这样一个研究,在大数据环境下,我们地学研究的思维模式应该发生什么样的变化。在谈及大数据的情况下,我们要谈的就是研究方式的变化和数据资源的增加,以及数据科学的发展。刚才程老师就谈到了,数据科学尽管不成体系,但是数据科学这个概念已经形成了,首先我会谈一下这个。

  在谈到研究方式上面,我们在座的各位老师都非常清楚。人类认识自然规律发展的过程中,我们认为经历了这几个过程,一是实验科学范畴,二是理论科学范畴,三是计算科学范畴,四是我们现在提到的数据密集型范畴。在实验科学范畴里,我们发现天文学主要是通过观察实验,发现一些现象总结规律。在这个阶段,它获得的数据量是比较小的,随着认识的深入进入到理论研究范畴当中来,通过一个假设然后寻找观测、寻找实验、寻找实验数据来验证你的假设。比如阿基米德定律,或者是我们数学方面的一些概念,这都属于理论范畴。随着20世纪40年代计算机科学技术的发展,我们人类进入到计算范畴这样一个研究阶段,在这个阶段依靠理论来进行计算、模拟,然后利用实验和观察的数据,对实验的一些结论或者是模拟的结果进行验证。在这个阶段,我们获得的数据已经比较大了,我们甚至可以叫做它已经进入到大量的数据阶段,但是我们还没认为它进入到数据密集型阶段,或者是大数据阶段。

  随着信息技术的发展,随着观测技术不断的完善,对地观测的认识或者物联网,或者是感知系统的形成,我们认为可以进行加密的观测。我们对数据的认识进入到密集型的阶段,随之而来的研究范畴,进入到数据密集型的范畴。随着物联网的延伸和互联网数据的延伸以及普及,我们现在可以认为我们已经进入到一个大数据时代。进入到大数据时代之后,我们地学研究要采取什么样的模式呢?在这个地方,我们首先还是回顾一下数据科学的体制,以及数据科学包含了什么,以及数学科学家应该做什么,这样的一个概念。

  我简单的回顾一下。从1947年提出比特概念之后,1962年他把它定义为一门科学。他提出数据分析就是计算机科学的一次飞跃。1968年图灵奖获得者提出对数据科学的定义,他认为数据科学是处理数据的这样一个科学,并且他认为数据科学通过讲统计学方法,现在计算技术以及领域专家等等联系起来之后,把数据转化为信息或者知识的过程,数据上升到信息和知识这样一个阶段。1989年提出知识发现和数据挖掘概念,1994年的时候,企业进入到数据收集阶段,这个时候我们认为企业通过大量的数据,可以进行精准的广告或者营销。1994年这个时候已经孕育大数据的出现。到了1996年以数据科学命名召开了一次会议。我们可以定位1996年的时候,数据科学这个概念正式诞生。对数据科学的定义还不是很完善,1996年的时候,指出在知识发现过程中,他强调知识发现过程也是有步骤、程序的,比如数据的准备、筛选、清理、整合等等一系列。这样数据科学进一步上升,形成知识发现里面的(一些定义)。1998年的时候,我们一个华人科学家提出将统计科学更名为数据科学,同时他把前面提到的知识发现和数据挖掘,转化为数据挖掘和知识发现。他已经发现从大量的数据库当中来挖掘一些信息形成知识,原来是从知识发现到数据挖掘,后来把它转化成数据挖掘到知识发现。这就预示着从大数据当中挖掘知识方法的开始。2001年的时候,提出数据科学包含多个学科,或者数据科学家包含多个学科的人,它主要解决两个问题,一个就是统计界里面的随机数据模型和计算模型,后来统计协会采取了数据模型这样的概念。

  一个关键的节点,就是到2000年的时候做了数据科学有关管理方面的文章,这是由国际协会主办的一个期刊,到2003年正式刊发了以数据科学为核心进行数据的收集,包括分析、建模等等有关数据科学方面的问题研究。到了2005年之后,我们可以说企业进入到数据的分析当中,企业通过数据分析增加企业自己的竞争力,这个时候企业首先提出了数据科学家这样的概念,并且对数据科学家的主业进行了一些定义,NSF对数据科学家做了一个定义,它认为数据科学家应该包含信息与计算科学、数据库与软件工程师、程序员、跨学科的专家、策划人等等。到2007年,上海复旦大学以数据学和数据科学建立了数据学和数据科学研究中心。到2008年进一步讨论数据科学家的定义,包括数据工作人员,与数据密切相关的,或者是利用数据的人,以及从事数据化和数据技术研发的一些人。2009年之后,大部分时间集中在讨论数据科学应该是什么,数据科学家应该是什么样的概念。2009年重复肯定了数据科学家的重要性,有关数据科学家指出对数据进行理解、处理,价值可视化、交互能力,这个工作是未来十年重要的一个技能,而且这个技能也是保证一个研究机构能够正常发展的人力资源。它强调了对数据理解人才培养的重要性。它指出了专家必须学会并适应新的数据科学研究技术,专家要提高信息技术的能力和素养,并且要训练下一代从数据中获取智能理解的技术,适应由数据逐渐掌控的数据。从这个里面我们可以看出来,数据科学和数据科学家重要性已经凸显出来了。

  2009年之后又进一步讨论数据包含的一些内涵,比方数据科学应包含计算科学、数学、统计学、数据挖掘、图形设计、可视化等等。另外,这个数据科学是跨科学的,他们从搜索就开始收集数据、整理数据,并且做出结论,能够通过考虑问题之外的一些东西,找到一些观察问题的方法,这就是大数据科学给我们提供的一些认识上的变化和方法的变化。

  数据科学家在数据密集型研究过程中就包括了获得数据、清洗数据、探索以及建模数据。并且认为数据科学是包含了黑客和艺术,以及统计学和计算机,以及学习专业等等。数据科学家,我们可以说这个定义相对清晰一点,到了2010年数据密集型出现之后需要建立一个新的环境来支配这个数据,以及如何孵化这些东西进行与物理空间和时间关系的关联

  到了2012年有一个提法,就是数据科学家是21世纪最性感的职业。也就说明数据科学尽管没有成体系,但是数据科学可以说是建立起来,但是它的内涵比较清晰,包含数学算法、统计、挖掘、分析,以及建模、设计社会,还包括数据工程以及黑客技术等等,以及先进的一些计算统计内容。它的内涵还是比较清晰的。

  我们从地学角度来看,我们的研究是不是符合大数据的特征。这是大家都知道的,2011年提出大数据到2012年美国政府推出大数据研究发展计划之后,我们可以看出他提出这个计划是有依据的,每天有1.68亿份电子邮件等等。

来源:中国教育网
CERNET第二十五届学术年会征文通知

相关课程