大数据技术与热点问题
主讲:程学旗 CCF大数据专家委员会秘书长
数据科学是研究数据的收集、传输、管理、分析、应用,还有环境的感知,是一种交叉性的学科。它的目的是为了揭示数据的内在规律,探索数据计算、数据处理的基本理论和方法,最终实现从数据到知识的转化。
讲一讲关于我在大数据方面的理解,所以我还是从以下几个方面,就是我们对大数据以及数据思维的理解和思考,还有就是对中国计算机协会马上要出版的中国大数据技术与产业发展白皮书的相关情况,跟大家分享一下大数据相关的应用案例、技术体系和发展趋势。目前总体讲“互联网+”、大数据、移动互联、云计算,对我们新兴产业,对传统行业的升级改造,从哪些角度能够促进利用大数据、互联网相关手段,促进升级改造跨越式发展,最后介绍一下我们自己的一些研究性工作。
讲大数据的话,我们看什么叫数据。大家都知道,从2012年开始大数据越来越火,无论做什么前面都要加上一个基于大数据的什么什么,搞教育的要基于大数据的教育,搞环境的叫基于大数据的环境。我们把一个大数据从数据变成一个大数据,从大数据变成一个形容词。实际上,它已经从它本来的东西慢慢变成炒作的一个概念。这种炒作的概念,我们这几年走过来一看,虽然很多人都在提大数据,但是到底什么叫数据,我觉得大家还没有真正思考。为什么这几年大数据这么热,我们认为是这样的,所谓的大数据热是因为随着互联的技术、IT的手段、测量手段的提升,以及我们在物理环境方面的技术手段能力提升,使得我们说这个物理世界,我们人类社会和我们的信息空间,形成一个相互影响、融成一个整体的空间。这个空间是什么?自然界跟信息空间通过各种传感所形成的融合。我们知道,人在信息空间通过智能手机,通过各种各样移动的设备,可以随时随地的交互,我们在物理生活里面,包括穿戴式、各种导航式也是终端结合,使得人机物三元世界充分融合。这种充分融合形成中间这个虚线,我们叫数据空间。这种数据空间是一个客观存在的空间,我们研究这个大数据,实际上是研究数据空间里面的数据基本规律,以及它价值利用的手段。它实际上是一门科学,新的数据科学定义是怎么来的呢?国家信息委从去年到今年一直在探讨,信息学部和数理学部,以及相关的几个管理学部,数据科学到底包括哪些内容?我们认为数据科学是研究数据的收集、传输、管理、分析、应用,还有环境的感知,一种交叉性学科。它的目的是为了揭示数据的内在规律,探索数据计算、数据处理的基本理论和方法,最终实现从数据到知识的转化。到知识转化的目的是为了什么呢?是为了一些运用提供决策、预测、判定的手段。它主要的研究内容包括两个方面,对数据自身的规律和数据处理的计算方法,理论方面的研究。
研究大数据核心在于提出一种新的思维和新的认知手段。所谓新的思维和新的认知手段,我们认为是如何从数据提升到知识,如何从知识提升我们的智慧管理和决策能力。这是我本研究数据,无论我们在信息化还是在金融,还是在各个领域,我们对数据的分析,对数据的加工理解,最重要的目的还是为了提高我们人的决策能力,提高我们决策的响应速度。这个说法在1947年的时候叫信息,利用信息的手段可以对人理性的范围扩大,因此能够提升人决策的质量。我们说数据的目的就是为了认知世界、利用世界,更有效的决策,更高效、更合理的技术决策。
到底怎么去做呢?核心在于什么呢?在于一种新的数据计算思维。这个数据计算思维核心在于把碎片化、分布式、离散化的数据,通过融合形成一种决策手段,这个在1989年的时候钱学森就提出这种概念,实际叫智慧的融合。“集大成,得智慧”这一套理论,实际上“集大成,得智慧”就是大数据思维,大数据思维就是把碎片性的东西集大成,融合形成我们可以用来决策的知识,形成一些决策和手段。
怎么样形成这种智慧?我们的理解是大数据所谓形成智能,核心是一种有限性智能。所谓有限性智能,比如机器在没有大数据的时候,它更多是一种推理、演绎,大数据有些可能不需要做推理,直接通过相关性就可以形成一些决策性的东西。最简单的一个例子,大家知道人肉搜索,有一个问题扔到网上之后,有搜索引擎为它提供答案,有人工为它提供答案,还有大家的碰撞讨论为它提供结果,最后形成这种东西。人肉搜索就这个目标,找到某一个人。这个不完全是机器,也不完全是人,实际上人肉搜索的过程就是人机物交互,互相碰撞凝聚,最后自己向上涌现出的一个决策和判定,一个结果。大数据它的魅力在于它可以是无组织的,但是最后能够汇聚,形成有限的决策和智能。这是大数据最有魅力的地方。我们反过来说什么叫大数据,实际上大数据在一些零散、片断、无所不在的数据空间里面,我们通过关联、融合去发现它最有价值的线索,最后能够得到原来无法得到的判定,这就是我们大数据的思维方式。
我们讲了这么多,它主要的价值是什么呢?我们把它归为三类,一个是对现状的感知,一个是对未来的预测,当然感知性的预测未来,核心问题还是为了决策和调控。比如说股市、金融、安全,包括流行病的预测,我们最终目的是为了决策好调控。无论是说我们基于大数据的科学发现,基于大数据的智慧城市管理,基于大数据的政府治理和流行病检测、环境污染治理,核心无外乎三类需求,对现状进行微观宏观层面的感知、对未来做连续事件和零散事情的判断,进行预测,最后对现状的手段有调控的手段或管理措施。这是我们说的大数据价值。
它的挑战性问题包括几个方面。我们说一个物体的存在,物体的存在决定运动,运动是它的状态。数据的存在,它的状态是什么呢?它的状态是网络化的,数据的关联、交互所形成一个关联网络。我们这个网络不光是互联网,也不光是有通信网络,我们在一个屋子里做交流,我们就形成了一种互动网络,这种网络可以是无形的,但它是相关的。我们认为数据存在的(永恒态)实际上是一个网络化,这种网络化是泛化的网络,实际上是一种关联和网络化。那么这种关联和网络化的数据,我们要进行处理、利用,进行辅佐我们决策的时候,它带来什么新的问题呢?我们的观点是带来四个新的挑战,一是数据复杂性挑战,二是计算复杂性挑战,三是系统复杂性挑战,四是学习复杂性挑战。
复杂性挑战。大家讲到底多大叫大数据?我们认为大数据当然规模比较大,但是规模大的数据并不见得就是我们所理解的复杂的大数据,比如说每时每刻产生的卫星图片,每秒钟更新一次,在整个中国地图每秒钟更新一次卫星在上面照的图片,规模非常大,实际上很多数据是冗余的,这么规模大的数据并不见得是多么复杂的数据。复杂的数据在什么地方?从计算的角度讲,它多复杂,我们计算的快。数据的复杂性在大数据时代,规模已经不仅仅是衡量它复杂性的第一要素。还有其它更重要的要素,就是数据相互之间的复杂关联,以及数据动态变化,实际上这样的复杂性比讲的多大规模要复杂多。比如facebook它只有十亿用户,现在2200多亿照片,所谓…就是谁跟谁是粉丝,谁跟谁是朋友。当然现在微博、微信也是,有粉丝,有朋友。如果我们只看到规模,多少用户呢?二十亿、三十亿,全球人口差不多六十亿,节点就这么多。一个N的平方,连接也就这么多。几十亿的路径用一个典型的关系数据库肯定能存下来,存下来之后如果查某一个节点,查某一个号码,很快就能出来。这个规模很大,但是不复杂,用关系数据库简单就给你存下来,facebook如果只存点和边,只为边和点做查询,实际上很简单。当然几十亿的时候必须用分布式数据库来做。
如果我们关注的不仅仅是某个点,某个边,我要关注这里面的某一个群体,我要关注这个群体跟其它群体的关联,以及关注它们之间在消息的扩散,观点的影响、碰撞,以及结构跟结构之间的分裂、变化,这种变化、层次叫局部的变化和多尺度关联,带着这个复杂性,比我们只是讲十亿节点、二千多亿一条边要复杂的多。怎么识别和发现?所以核心数据的复杂性,核心在于如何度量数据的复杂关联,和数据多层次、多颗粒度的这种动态变化结构复杂性。这是数据复杂性。