未来数据工厂和数据工人的出现将是一个趋势。大数据需要不同层次的人才。
“在雨季,一个象波士顿这样的城市,一分钟之内也许要降落下千千万万粒雨滴,如果其中的一滴是红色的,我们的工作就是找到那滴雨。”
这是诺贝尔物理学奖获得者丁肇中在会见邓小平时,对他发现的J粒子所做的比喻。经过长达十年的实验、测量、校正、数据分析,丁肇中发现了J粒子,并获得了1976年的诺贝尔物理学奖。
在新技术层出不穷的今天,大数据与大科学、大发现更加紧密关联,2012年上帝粒子的发现,将大数据推向世界舞台的中心。在过去的2014年,大数据无疑已经成为科学界的宠儿,国内众多大数据科研机构纷纷成立,并构建自己的学科数据中心、大数据资库。
2014年6月,大数据与科学发现国际研讨会(CODATA Workshop on Big Data for International Scientific Programmes)在北京举办,如何挖掘科学大数据的能量与潜力、如何更好利用科学大数据为科学发现服务,如何使大数据、大科学、大发现融会贯通,都是本次会议研讨重要话题。
本次大会的主席、中国科学院郭华东院士目前担任国际科技数据委员会主席,曾提出“大数据+大科学=大发现”,总结多年的工作,他认为大数据更多的是信息的发掘与应用,至于大发现,不光要大数据还要有新的数据,新的实验与观测方法。相比互联网的大数据与商业大数据,当前,科学大数据的理论研究与实践还相对较少。
IDC的统计数字显示,中国目前拥有的数据量占全球的14%;而到2020年,这一比例将上升至21%。但是,相关的数据表明,我们的数据利用率不到0.4%,更多的数据仍然沉睡在各个角落、各个单位。
究其原因,一方面是由于共享机制与政策,另一方面,也是因为数据处理的方法仍有欠缺。
中国科学院高能物理所的许榕生教授说:“大数据不是万金油,一吃就灵。大数据的魅力,是在海量的数据中筛选出自己想要的数据。”而这中间,数据的分类处理非常重要。
上世纪八九十年代,北京正负电子对撞机在高能所建成,实验室急需既懂高能物理又懂得电脑软件和数据处理的人才,诺贝尔物理奖获得者李政道向高能所推荐了加州大学的许榕生博士。
数据获取和处理是利用北京正负电子对撞机进行高能物理实验研究的关键环节,许榕生回国后,最初就是帮助高能所的科学家,过滤、检验、分类处理从对撞机中产生的海量数据,从而分析出物理实验的各种结果。由此他获得了1993年物理学会的最高奖——胡刚复物理奖,其创建的“北京谱仪数据的离线处理技术”在当时的VAX计算机上设计了数据过滤、数据分类,以及数据刻度、数据重建的体系,建立了数据处理的秩序,从而推动对粒子物理基本理论轻子普适性问题的解决。
时隔二十年,近期的北京对撞机实验每天约产生2T数据,最新的欧洲核子研究中心CERN每秒就产生超过2P的数据,大数据改变了科学范式,形成新的科学范式——数据密集型科学。
许教授认为,未来数据挖掘与分析大有可为。“数据分析需要注意两个问题,第一是数据准确,第二是软件利索。”数据准确需要进行数据过滤与校正,而软件利索,则需要基础软件、半基础软件和针对性软件。基础软件需要统计学及数据可视化人才,半基础软件则是需要数据专家,也就是国际上正在兴起的“数据科学家(CDS,Chief Data Scientist)”,针对性软件则需要各专业的分析专家。人才缺乏是各方面专家一致的看法,郭华东院士在不同场合呼吁,大数据与大科学研究需要一支特定的队伍,
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。