现代科研引入开放融合共享计算模式
现代科学研究项目往往规模巨大。高能物理、基因组学、蛋白组学、天体物理学等大科学工程都是以数据为中心的学科,这些大科学工程产生越来越多的数据,迫切需要建立大规模的数据中心对数据进行存储、管理、分析和处理。
以高能物理实验为例,当今以欧洲大型强子对撞机LHC(Large Hadron Collider)为代表的一批高能物理实验每年产生的数据多达数十PB,需要建立一大批数据中心联合对数据进行分析处理。过去十多年来,国际高能物理的同行在全球范围内建立了近两百个数据中心,利用网格技术将这些数据中心联合起来形成一个统一的数据处理平台,为LHC 的物理研究提供支撑。这种多数据中心联合形成的网格平台很好地解决了海量数据开放融合、高效处理的问题。
高能物理采用完全开放融合共享的计算模式,海量基础数据、计算能力、存储能力、传输能力等等对于全球合作成员都是开放共享的。这种模式确保了所有的数据中心高效地分担数据处理的任务,同时使物理学家能够在世界上任何一个地方访问数据资源和计算资源。可以说,高能物理是科研大数据的先驱,也是科研大数据的典型成功案例。
分布式的数据中心首先需要强大的网络支撑。高能物理网格平台采用1Gbps~40Gbps 的专用国际网络链路把这些近两百个数据中心连在一起,利用这些网络链路进行数据的传输和计算任务的全局调度。每年在这些数据中心之间的数据交换达数百PB。
建立高水平的数据中心
大科学装置产生的海量数据需要经过高效的处理和分析才能获得研究结果。因此,建立高水平的数据中心为科学研究提供数据处理基础环境是科学研究的重要工作之一。数据中心包括硬件环境和基础软件环境两大部分,硬件环境包括数据存储、计算环境、网络环境三大资源。实验产生的海量数据需要安全可靠地记录保存起来,同时又能被高效的访问。存储系统需要根据科研数据的规模及处理模式进行仔细的规划设计,以满足数据分析的需求。一般而言,科学计算对数据的访问往往既需要高吞吐率,又需要高并发率,这就要求数据存储系统能支撑高I/O 吞吐能力和高并发访问能力。数据中心一般配备分布式的并行存储系统,如GPFS, ZFS, Lustre 等等。这些存储系在性能和容量规模上都后很好的可扩展性,从而能够很好的满足作为大规模数据中心的需求。高能物理研究所的数据中心对Lustre 进行了改进优化,建立的高性能海量数据存储系统性能达到国际同行先进水平,可满足大规模数据处理的需求。
数据中心的基础软件部分主要用于硬件资源和服务资源的管理。资源管理系统用于对存储资源、计算资源及网络资源进行管理和调度。由于许多大科学工程的数据处理和计算软件不是标准的商业软件,这些科学计算应用软件需要针对科学项目进行自主开发。基础软件一方面将硬件平台进行屏蔽,另一方面提供通用软件库来支撑科学计算应用软件的开发。这样做的好处是能够让科学家把精力放在与科学研究相关的软件开发上而不必关心底层硬件的特性。这种模式也更便于科学计算软件向新的计算机硬件平台上的移植。
以高能物理为例,物理学家开发了用于描述粒子相互作用的软件包GEANT4。该软件包用来模拟粒子穿过介质时与介质发生作用的过程,帮助物理学家理解或预测实验产生的结果和数据,并为实验装置的设计、数据的分析处理提供依据。另外,物理学家还开发了各种通用的数字计算和物理分析软件包,如物理分析框架ROOT。ROOT 是一个面向对象的数据分析框架工具,可用于大规模数据的分析处理和可视化。高能物理的数据中心普遍采用这些软件包作为数据处理的基础,而物理学家在此基础上建立自己的数据处理系统。
事实上,以高能物理为代表的科研大数据研究一直在推动着计算、网络、存储等大数据基础技术的发展。2004 年开始建立面向数据密集型计算的高能物理数据中心,目前拥有近10PB 的海量存储空间,超万核的计算能力。高能物理研究所在教育网和科技网的帮助下建立了通过TEIN2/ORIENT 和升级后的ORIENTplus 到欧洲的高速链路,每年的国际数据交换达到3PB 以上。高能物理数据中心每年为LHC 实验的完成超过500 万个计算任务,为Higgs 粒子的发现等重大物理成果的产出做出了贡献。同时该数据中心还为其它高能物理、天文、生物等多个领域提供数据和计算服务,有力支撑了大亚湾中微子实验在海量的事例中发现中微子第三种振荡模式,被美国《科学》杂志评选为2012 年度十大科学突破之一。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。