科研信息化(即e-Science)由英国科技部主任John Taylor于1999年首次提出,经过20余年的发展演进,目前主要指充分利用信息技术,促进科技资源交流、汇集与共享,变革科研组织与活动模式,推动科技转型,从而实现科学技术新革命的途径。
科研信息化的内涵非常丰富,包括科研信息化基础设施建设、科研信息化支撑能力的提供和服务、科研数据和资源的建设和共享、基于信息化技术的科研活动协同、科研管理信息化等。总结而言,可能主要包含三项内容:一是科研管理信息化,二是科研环境信息化,三是科研活动信息化。
高校是科技创新的重要基地,也是科技成果的重要生产者,其海量科研数据的生成、存储和管理需要借助科研信息化管理,跨学科、跨区域的全球化科学研究将需要借助科研信息化手段来协作完成,丰富、高质量的科研数据的获取与分析需要高端的信息平台才能有效开展。因此,科研信息化工作的发展受到国内外高校的空前重视。本文将展示国外大学在科研信息化三个方面所开展的工作。
01
科研管理信息化
信息化技术的应用,使科研管理突破了传统人工管理的制约,建立了更为科学合理的管理模式。科研管理信息系统改变了以往以项目管理各自为政的局面,实现了各管理层面的数据共享,减少了冗余数据,加强了数据之间的关联性,全面精准的数据为领导层科学决策提供了重要的参考依据。在国外,科研管理信息化水平是政府衡量高校管理水平的重要依据。
牛津大学的科研数据管理
英国牛津大学开展科研数据管理较早,在实施过程中强调数据管理要面向并融入统一的大学基础设施之中,将数据管理政策、工具、培训等要素纳入大学的整体基础设施,体现研究数据生命周期的不同阶段的要求,从而使科研数据管理能够更好地为科研服务。
在构建科研数据管理系统过程中,牛津大学启动了一个跨机构的合作项目,该项目基于长期保存生命周期模型,结合本校研究人员需求,考虑学校各方情况及反馈,提出了牛津大学科研数据管理和长期保存服务框架,主要包括商业层、政策层、基础设施和工具、支持层和服务层。
--商业层是指有关数据管理的运行和费用;
--政策层包含了有关数据管理的政策和程序;
--基础设施和工具包括数据管理所需的硬件和软件;
--支持层是指连接基础设施工具与服务的各种接口;
--服务层包括围绕数据管理而开展的各项服务,如数据管理计划、数据选择和评价等。
这个服务框架最终集成于学校的整个基础设施中,在不同的科研环境体现科研数据管理的内容和价值。
马里兰大学环境科学中心的科研项目管理系统
十年前,美国马里兰大学环境科学中心(UMCES)通过Cayuse424系统,迈出了科研管理信息化的第一步,在该系统中实现了科研项目的提案准备、发送和提交等功能。
2016年,马里兰大学获得了肯特州的Kuali Research(KR)信息系统的完整权限,学校的各个部门都可以使用这一强大的系统。环境科学中心的科研管理与促进办公室积极引进KR系统,以提高中心的科研管理效率。
KR系统是一款基于云的科研管理系统,不仅支持对科研项目的全生命周期进行管理,还能确保最高级别的合规性和完整性。具体而言,KR能够:
--通过智能发送和审批更高效地制定提案;
--直接向Grants.gov和Research.gov等网站提交提案;
--更有效地管理协商,以加快资助和提高透明度;
--在科研项目生命周期内管理获奖情况;
--跟踪整个机构的研究活动,以改进预测、监督和趋势分析;
--将与科研项目从头到尾相关的所有文档和详细信息储存在独立的存储库;
--为即将到来的报告截止日期生成提醒,并直接发送给学术带头人(PI)和业务办公室。
02
科研环境信息化
科研环境信息化是指通过新一代的信息技术构建信息化基础设施和平台应用,为科学家们提供一个信息化的科学研究环境。主要包括科研信息化基础设施建设以及科研数据和资源的建设与共享。
科研信息化主要指向数据密集型科研、计算密集型科研、开放式科学创新及新型科研创新研究单元的诞生。
其中,数据密集型、计算密集型科研主要是指科研过程中对数据资料及高性能计算设施的需求,如麻省理工学院投巨资建立Schwarzman计算机学院,目的之一是应用最新的信息技术尤其是人工智能技术来重塑自身的科学研究。
康奈尔大学的数据阶段型存储库
数据阶段型存储库(Data Staging Repository,DataStaR)是康奈尔大学图书馆的一项主要针对本校学者的数据监护服务,其以机构库为基础,力图扮演学术界共享数据集时的一个暂时的、过渡性质的存储节点。
其设想是建设成为一个数据监护平台及一套完整服务方案,拥有可产生多种格式的高质量元数据的工具,由图书馆员负责操作,通过协助学者完善数据和元数据来促进共享,最终积极帮助他们向各自领域的学科库发布数据成果,供长期使用和保存。
DataStaR系统主要由4部分构成:
--基于Fedora的数据集存储库;
--基于Vitro的语义元数据存储库;
--用于对文件格式进行批量自动识别的开源工具:数字记录目标识别程序(Digital Record Object Identification,DROID);
--用于向外部永久存储库传输文件的内容转移协议——面向存储的简单网络服务协议(Simple Web Service Offering Repository Deposit,SWORD)。
新墨西哥大学图书馆DataONE项目
2007年,美国国家自然科学基金委员会(NSF)启动DataNet计划,计划在5年时间内投入1亿美元用于支持以图书馆为主体开展科学数据管理的研究工作,首批获得资助的两个项目分别是霍普金斯大学图书馆主持的Data Conscrvancy和新墨西哥大学图书馆主持的DataONE(Data Observation Network for Earth)。
DataONE分别于2009年和2014年启动第一期和第二期建设工作,主要针对地球科学领域,旨在构建能提供准确清晰的地球观测数据的分布式数据监护网络体系和可持续性的信息基础架构。
该项目着重解决三个问题:对复杂环境问题研究提供支持;实现多学科数据兼容;用“一个全局”的视角去解决全球问题。
DataONE的设计主要基于三个原则:
--支持对现有的和新建的存储库的分布式管理;
--DataONE的软件不论是现在还是将来都适用于科学家和数据提供者;
--DataONE活动应支持利用现有的社区软件和开源软件。
其基础架构主要包含三个部分:
一是成员节点,是以保存为导向的存储库,通过DataONE的服务规程或成员节点API,为学术界、图书馆、政府机构和其他组织提供本地数据存储、数据访问、访问控制、复制以及主用户之间的交互等服务。
二是协调节点,该节点地域分布广泛,可通过节点与节点之间的合作提供服务,比如成员节点注册、元数据索引、协调和检测数据复制、为全球用户提供身份、检测节点和网络健康等。
三是研究工具包,研究工具包是一系列软件工具的集合,用于在DataONE中发现和使用数据。
美国纽约大学超级计算中心
纽约大学通过使用IBM Blade Center技术,成功创建这一占地仅3平方米的超级计算集群系统。
这一超级计算机峰值速度超过4.5万亿次(Teraflops),由一个包括256台IBM eServer Blade Center JS20刀片服务器的集群组成,运行Red Hat Enterprise Linux AS 4(RHES AS 4)操作系统,每台服务器配置2颗2.2GHz PowerPC 970处理器,整个系统的处理器总数达到512颗。该高性能系统采用Myrinet交换机技术连接每一台刀片服务器,并使用了下一代互联网协议IPv6。
纽约大学的这一高性能计算系统在不牺牲处理能力和性能的前提下,以一种空间节省的方式提供了对IT基础架构进行扩展的方法。
这一新的紧凑型系统将支持纽约大学进行众多高计算要求的研究工作,包括最先受益的Courant数学研究所下属大气海洋科学中心,以及比较功能基因组学研究中心(Center for Comparative Functional Genomics)和Courant数学研究所等。
Courant数学研究所下属大气海洋科学中心已经开始使用这一超级计算系统,通过计算建模来仿真大气环流和洋流,帮助研究人员结合理论、数学分析和数字模型,用于了解地球气候变化,研究地球大气和海洋规律,以及雷暴和飓风天候、厄尔尼诺等大气和海洋活动,以及湾流(Gulf Stream)和南极绕极流等洋流所带来的影响。
03
科研活动信息化
科研活动的信息化,是指利用最新的信息技术,改变科学研究活动的方法和手段,主要包括基于信息化技术的科研活动协同以及科研过程中信息化能力的提供和服务。
在科研信息化所指向的科研变革中,开放式科学创新及新型创新研究单元主要是指基于网络的协同研究组织。从上世纪90年代末开始各国就尝试创建虚拟研究组织(Virtual Research Organization,VRO),这类组织普遍表现为研究组织的虚拟化,能够打破时空的限制,促进深度学术交流和科研资源共享。
麻省理工学院的CSBI
起始于2003年,至今仍在延续的麻省理工学院CSBI(Computational and Systems Biology Initiative)项目为系统生物模型的建构做着开辟性工作。
该项目的理念是借助网络信息技术这项颠覆性技术,使工业界与学术界紧密合作,搭建系统生物学研究的虚拟社区。其研究模型(Research Model)被设定为将研究所需要的人力资源、设施设备、实验室都保留在原来的场地或者学术实体,应用网络信息技术把这些资源有效连接,既体现学术管理中的分布化特征,又实现研究所需要的大规模和集中化。
美国六所大学合建的nanoHUB
比CSBI更早的是普渡大学、加州大学伯克利分校、西北大学、伊利诺伊大学厄巴纳-香槟分校、弗吉尼亚大学、德克萨斯大学阿尔帕索分校等六所大学,在美国国家科学基金会的支持下组建的美国国家纳米技术计划(National Nanotechnology Initiative)大学网络。
该大学网络成立于2002年,门户网站为nanoHUB(www.nanohub.org)。该网站同样延续至今,不断刊载纳米技术研究的文献,被部署的研究仿真工具越来越多,成为联系纳米科学与技术研究者的重要平台。
新西兰奥塔哥大学的CICERO
新西兰奥塔哥大学跨学科临床教育科研协作组织(Collaboration for Interprofessional Clinical Education Researchat Otago,CICERO)在2009年形成雏形,社区内的成员来自新西兰的很多城市、很多不同的学科,他们当中既有全职工作人员,也有兼职人员,成员构成较为复杂。
通过网络把分散在新西兰各地的临床医疗的教育与研究工作成员连接起来,提供了进行反思和协作的平台,成员根据角色与任务通过自组织的模式建立起连接,以保证每个人在做适合他自己的事情时能与群体建立融洽的合作关系。
昆士兰研究计算中心
昆士兰研究计算中心(QRCC)成立于2011年,旨在帮助昆士兰大学的研究人员跨越学科,充分利用如高性能计算、数据存储、数据管理、可视化、工作流和视频会议等e-Research技术,通过研究协作,整合先进的计算手段、数据分析和其他数字研究工具,促进该学校自然科学、工程、人文和社会科学的发展。
QRCC由多部门和团队组成,研究涉及多项e-Research研究方法的关键技术,如云计算、数据管理、高性能计算、工作流程工具和可视化,将这些技术、计算设施和其他学科的研究紧密结合,对加速本校的科学研究进程起到了至关重要的作用。
随着云计算、大数据等新兴技术的发展,各高校的科研信息系统不再只是具有单一的项目管理功能,已发展成为对科研课题全程监控的信息平台,平台可以保存、共享各种实验数据、分析数据等课题宝贵的资源,同时实现了科研成果评估和共享,为科研成果转化带来了较大的经济利益。
此外,部分学校已经开始运用虚拟技术构建高端虚拟实验室,减少科研成本。因此,科研信息化的各个方面正在逐步融合,形成完善的科研信息化闭环体系,为科研人员提供良好的科研环境和条件,从而推动高校实现科研领域的新突破。
*本文根据综合资料整理而成
整理:郑艺龙
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。