e-Science,在美国被称为cyber-infrastructure,被定义成为共享计算资源、分布式数据库和科研协作交流数字平台三种不同发展的组合。它的核心思想是通过汇集人类专业知识、数据、资源、计算和可视化工具来提高知识的生产,也是一种采用互联网络技术和广域分布式的高性能计算环境来建立的全新科学研究模式。随着e-Research概念的出现,将e-Science范围覆盖到非科学研究,比如人文与社会科学。在e-Research环境下,数字化信息组织与共享成为科研人员交流与知识形成的主要方式。它使得海量的信息与科研成果,以数字化的形式进行存储与利用,借助先进的信息技术对数据进行挖掘。与此同时,它为科研人员提供了强大的技术支持平台,具有全面开放、分布协同、高度共享的特点。另外e-Research加入多种信息技术与设施,如高性能计算、数据库、云计算、工作流和科研设备共享,核心思想在于充分利用先进、创新的互联网信息技术,将全球信息资源高度的整合,实现全球性的、跨学科的、大规模的科研合作,跨越时间、空间、物理障碍的资源共享与协同工作。
澳大利亚e-Research计划
2004年,澳大利亚政府意识到如果要想在国际上保持先进、领先的研究实力,必须有一种能够紧密结合和协作的方法来加速科学研究团体的研究。同年9月19日,澳大利亚决定开始实施以信息技术为连接、以英国e-Science为蓝本的e-Research协作架构。2005年4月,e-Research调委员会成立,并邀请国家教育、科学、培训、通讯、信息技术以及艺术等相关部门向政府提供关于发展澳大利亚e-Research的专家意见。2005年12月,一份临时e-Research协调委员会报告被政府接受,该报告推动了e-Research协调委员会的工作,并提出了战略实施框架和活动来加速澳大利亚e-Research发展的进程。这个e-Research战略框架希望澳大利亚的研究者利用先进的信息和通信技术对世界级的研究做出贡献。其目标包括:利用先进、创新的信息和通信技术让澳大利亚的研究者领先于世界并被国际认可,能够得到覆盖澳大利亚国家研究重点的高质量研究结果;澳大利亚的研究人员能够通过先进的信息和通信技术访问各种数据、仪器和计算设备,真正的参与合作研究,并在国家与国际研究面临挑战的时候做出贡献;澳大利亚的研究人员通过必要的教育、培训和技能,在信息和通信技术以及信息管理专家的支持下有效使用各种信息和通信设施;e-Research研究能力的提升给澳大利亚的工业和商业带来重要的影响;e-Research的研究成果将给澳大利亚的社会和经济将带来更多的益处[1]。
e-Research是一个建立在先进和创新的计算与通信基础上的软硬件综合环境。它包括高速的通信网络,先进的仪器和设施,传感器网络,数据存储及其相关的数据标准和管理工具以及高性能计算资源。这些信息基础设施能够让研究者信任和共享软件、架构服务,以及他们依赖的各种数据、计算机、系统和网络;让研究者利用图形可视化、模拟软件和交互工具并通过接口和他们需要的设备、计算设施和数据资源进行交互。2004年澳大利亚政府决定到2011年投资82亿美元用于建立世界级的基础设施和开展科学研究。其中10亿用来改善澳大利亚网络建设,5.42亿用于NCRIS(国家合作研究基础设施策略)。NCRIS驱动了35000个研究者、政府和企业的合作,持续的资金支持推动了整个国家超级计算的能力和世界级的研究设施发展,并将它应用在纳米制造、食品科技、健康、环境和生态城市等各项研究。NCRIS注重于e-Research的技术与设施,并保证其在国际上的竞争力。目前NCRIS具有国家级的研究能力,有222个机构、1700名高科技人才、研究者和设施管理人员,近27个项目35000名国内外的研究者在使用[2]。
澳大利亚e-Research环境
在澳大利亚的e-Research发展过程中,CommonwealthScientific and Industrial Research Organization(澳大利亚联邦科学与工业研究组织,简称CSIRO)、National ComputationalInfrastructure(澳大利亚国家计算基础设施,简称NCI)、Australian Academic and Research Network(澳大利亚学术与研究网络,简称AARNet),为澳大利亚的e-Research创造了先进的科研信息化环境,让澳大利亚的研究者利用先进、创新的信息和通信技术加强他们对世界级研究的贡献。
CSIRO前身是于1926年成立的科学与工业顾问委员会,是澳大利亚最大的国家级科技研究机构[3]。CSIRO帮助澳大利亚研究人员进行全球有竞争力和协作性的科研项目,重点解决国家和国际重大研究问题,并提供先进的信息和通信技术服务平台以支持他们的科学成果。它为澳大利亚的科学研究提供了新的途径,通过科学研究和发展为澳大利亚带来经济效益和社会效益。CSIRO所从事的22项研究领域中,有15项的排名进入全球科研机构前1%。CSIRO依靠先进的信息和通信技术服务协助研究团队制定他们的计算和数据管理需求,以及他们对项目的认识。比如CSIRO开发了一系列的流程和系统,支持CSIRO研究数据和软件资产的生命周期,并确保其安全性,可发现性和可重用性。数据的优化存贮方案,大规模数据传输、数据保护(数据备份、数据复制、数据同步)、文件系统组织、数据转换和数据保存以及对来自各种科学设备的数据捕获和管理。最著名的是CSIRODATA ACCESS Portal(DAP),通过它可以浏览、查找和下载超过1700个研究数据。CSIRO和我国合作了近40年,其中一项基于日光镜技术的集中太阳能发电技术也将应用于我国。这项技术与我国的制造能力相结合,有助于加速将太阳能热作为我国可再生能源的重要来源。除此之外,CSIRO还提供高性能计算、可视化、工作流以及协助研究人员进行文献、出版和记录等服务。CSIRO的e-Research计划主要包括与国家和国际e-Research社区合作,并在未来的规划框架中寻找最佳的实践应用;与CSIRO业务部门的研究团队建立关系,密切合作,了解它们的e-Research要求,使他们能够成功实现目标;提供跨区域的专用项目支持,包括高性能计算、云计算平台、高级可视化、数据管理、软件可持续性和工作流。
NCI建于2007年,是澳大利亚高度整合的高性能计算研究环境,由NCRIS和澳洲教育部支持,目前由CSRIO参与运作。NCI基于澳大利亚国立大学,为近4000名澳大利亚来自不同研究机构、35所大学、5个澳大利亚研究中心、3个医学研究院的研究者提供高性能计算和高性能数据服务[4]。它拥有澳大利亚性能最快的千万亿次超级计算机(Raijin)、性能最好的云服务(Tenjin)、速度最快的文件系统(Lustre)和最大的数据仓库。它支持和吸引国际间的合作,并保持澳大利亚世界级的研究能力。NCI整合了先进的计算设施并致力提供给所有的科学研究领域,通过提供高性能计算、数据存贮和数据服务给计算和数据密集型研究团体一个多合一的资源。NCI为澳大利亚的e-Research提供了高性能计算、云计算、数据存储、数据创新、收集管理、虚拟实验室、可视化等研究能力,应用领域包括地球与环境科学、化学科学、物理科学、工程与技术科学、生物科学以及数学科学,开展如使用基因序列治疗自身免疫疾病、核聚变模型、能源存贮新材料、模拟超行星形成、探寻量子属性、南极冰川融化、工业催化上的纳米颗粒等研究项目。
AARNet成立于1989年,是澳洲联邦政府支持的一个非营利有限公司,股东是38所大学和CSIRO,被认为是澳大利亚互联网的创始者,以提供高速低延迟的网络闻名于全世界[5]。AARNet将澳大利亚大学、CSIRO、有研究和教育任务的组织,与教育和研究部门有互动的部门,如医院、职业培训机构、学校和博物馆连接在一起,提供10G、40G和100G的网络带宽。AARNet在e-Research扮演着非常重要的作用,全力支持NCRIS,并与世界各地的其他国家教育网络合作。AARNet目前有几个非常重要的创新研究,如SDN测试平台、scienceDMZ和CloudStor。其中SDN测试平台通过西雅图与美国Internet2和ESnet研究网络以及ON.LAB部署的全球OpenFlow网络设施相连接的测试平台进行互连。参与研究的9所大学研究人员可以通过连接AARNet来建立一个全球范围的广域SDN实验环境,通过建立互联网的模拟,使计算机科学,工程和数学领域的研究人员更容易进行环境搭建和结果测试,验证先进的网络概念,加快高速网络的发展。专用网络架构science DMZ解决了研究机构以及大学在进行大型数据集研究时由于数据量过大而造成的存储、共享、同步和发送问题,可以满足当下数据密集型数据研究的高要求,降低了科学数据量指数级增长对研究进度带来的影响,同时提升了大数据科学研究者与普通用户的网络性能。CloudStor是专门针对研究机构和教育部门的一种免费,快速且安全的文件传输和存储解决方案。它可以为AARNet相关机构的每位研究人员提供100GB的免费存储空间(一些研究机构允许获得更大的空间)。同时可直接连接到AARNet骨干网,速度为40Gbps,能够快速方便地访问。拥有澳大利亚访问联盟(AAF)认证的研究人员均可单点登录。
可以看出,澳大利亚的e-Research能够取得快速的发展与政府对信息基础设施建设的投入及重视有着非常重要的关系。国家级NCRIS项目的启动和CSIRO对e-Research的合作与支持;NCI高性能计算设施和AARNet高速网络的建立给e-Research提供的平台;创新的信息技术如HPC、数据存储、工作流、云计算、可视化以及物联网技术都为e-Research开展各种跨学科的合作研究提供了坚实的基础(如图1所示)。
基于e-Research的生物多样性研究
澳大利亚生物物种占全球物种的10%,且超过80%的物种为澳大利亚独有。因此,对澳大利亚生物多样性的研究显得尤为重要。依托于e-Research环境(如图2所示),澳大利亚的生物多样性研究取得令人瞩目的成绩,包括ALA(The Atlas ofLiving Australia)[6]、BCCVL(The Biodiversity and Climate ChangeVirtual Laboratory)和EMBL-ABR(EMBL Australia BioinformaticsResource)。ALA是澳洲政府一个基于互联网技术的基础设施项目,也是一个致力于使生物多样性信息容易获取和使用的国家项目,由CSIRO和澳大利亚的博物馆、大学和澳大利亚政府之间合作建立。在ALA成立之前,澳大利亚对生物研究和管理方面一个主要的障碍就是有关于生物多样性的数据都是零散碎片性并且难以获得。澳大利亚物种的数据和信息传统上被保存在博物馆、大学、政府部门和各种组织中。从这些组织中获取记录和数据集需要大量的时间和精力,并且常常出现不完整的信息。为了克服这些问题,澳大利亚的生物多样性信息必需要汇集在一起,并在一个地方方便地获取。该项目由澳大利亚政府通过NCRIS资助。ALA是一个集中的基于Web的基础设施,通过它可以捕捉、整合、管理、发现和分析生物多样性数据和以及相关信息。在ALA不仅可以发现物种信息、探索某个区域的物种信息、下载数据、上传数据,而且提供API允许第三方网站访问ALA某些特色等功能。它的数据收集平台Biocollect提供方便、灵活、可配置的功能支持用户自定义各自领域的数据收集和调查。通过ALA可以了解到澳洲所有的物种分布,这为澳大利亚的生态保护提供了很重要的支持。研究者、企业、政府以及其他团体可以通过一套工具来使用它。ALA在全球范围内也扮演着重要的角色,尤其是ALA开放的资源体系结构为全世界的国家生物多样性信息门户提供解决方案,并广泛被世界一些国家采纳,如西班牙、法国、葡萄牙、哥斯达黎加、阿根廷、巴西、科隆和爱沙尼亚等。尤其在天文学、生物安全、保护濒临物种、自然环境的研究和管理领域,许多国家都利用ALA的开放式基础设施,最大限度地减少重复,也为澳大利亚以及全球生物多样性社区带来巨大的价值。
BCCVL由澳大利亚多个大学共同建立,这个虚拟实验室提供无缝接入到澳大利亚国家计算基础设施用于未来气候复杂的预测。它具有丰富的、可利用的生物学数据以及一套迄今为止最复杂的模型算法,并获得了2015年昆士兰iAWARDS奖[7]。BCCVL提供访问可视化的生物、环境、气候数据集,同时可以对数据进行统计分析。平台提供了17种算法,如统计回归、机器学习、地理模型等[8]。
EMBL-ABR也是一个为澳大利亚生命科学研究人员提供生物信息学支持的分布式国家研究基础设施。它与欧洲生物信息学研究所合作,最大限度地提高澳大利亚的生物信息学能力。EMBL-ABR由NCRIS和墨尔本大学投资建立,包括1个中心(墨尔本)和12个节点,这些节点围绕六个关键领域如数据、工具、计算、标准、培训和平台,并将这些领域映射到生物学的专业领域。它的目标是促进并提供数据、工具和平台方面的培训,使澳大利亚的生命科学研究人员能够在大数据时代进行研究,增加澳大利亚收集、整合、分析、利用、共享和存储大的异构数据集,以及在国际上展示澳大利亚的研究和数据集[9]。
过去十年,通过国家、州和机构投资,澳大利亚建成了具有国际竞争力的e-Research研究环境。它让澳大利亚进一步增强和维持其在生物、卫星图像处理、太阳电池效率、精准天气预报、化学先进制造以及中子发现等领域的科研竞争优势。e-Research不仅代表了一种势在必行的战略,也让澳大利亚在世界科学研究上保持竞争力并从中获得经济利益,而且它还提升了研究团体、商业和其他团体的研究水平,这对于澳大利亚分散的研究资源来说非常重要。随着科学研究全球化、跨学科、合作化以及数据密集性、大数据的挑战,e-Research这种全新的研究远景和组织模式将为加速研究进程、促进研究人员之间的协作和知识共享以及开辟全新的跨学科研究领域发挥更大的作用。(责编:杨洁)
(作者单位为兰州大学网络安全与信息化办公室)
本文刊载于《中国教育网络》杂志2018年7月刊
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。