国内外图书馆热点问题之三:数据管理
编者按
数据管理是图书馆界的几大热点议题之一。本期我们介绍国外知名高校在此方面的实践,下期将介绍CALIS、武汉大学图书馆以及中科院文献情报中心等在此方面的探索与实践。
数据管理现状
自2002年Jim Gray首次提出Data Curation,到2009年10月微软研究院发布论文集《E-Science:科学研究第四范式》(The Fourth Paradigm),再到2011年5月麦肯锡公司(McKinsey)的研究报告《大数据:创新的下一个前沿领域、竞争和生产力》(Big Data:The Next Frontier for Innovation,Competition and Productivity),数据管理(Data Curation)已经逐渐成为许多学科的核心研究内容。同时,伴随着海量数据时代的到来,学术交流环境和科研环境也不断发生变化,科学研究正在向数据密集(data intensive)型的方式转变。在这个转变过程中,科学数据管理也逐渐成为图书馆研究和服务的重点领域以及未来的发展趋势。虽然科学数据管理并不是图书馆的传统工作领域,但是,由于图书馆长期以来在处理各种类型文献信息方面有着独特的经验和优势,社会上也越来越认可图书馆承担科学数据管理的职能与能力。与此相对应,在国际上,国际图联(International Federation of Library Associations,IFLA)、联机计算机图书馆中心(Online Computer Library Center,OCLC)等图书馆相关组织纷纷把科学数据管理作为重要的会议议题或是研究主题。如2011年欧洲的数字图书馆理论与实践国际会议(International Conference on Theory and Practice of Digital Libraries,TPDL),把科学数据管理列为研究主题之一;台湾大学图书馆于2011年5月举办了“E-Research:新时代学术研究之利器”研讨会,等等。此外,随着E-science的不断发展以及科学研究过程中对科学数据价值的深入挖掘与重视,一些国家与图书馆相关的组织还提出了专门从事科学数据管理的具体研究和实践活动的计划,如英国成立的数字管理中心(Digital Curation Center,DCC)、NSF于2007年启动DataNet计划。后者计划在5 年内投入1亿美元用于支持以图书馆为主体开展科学数据管理的研究工作。该计划首批获得资助的有两个项目,分别是由霍普金斯大学(The Johns Hopkins University,JHU)图书馆主持的Data Conservancy和新墨西哥大学(The University of New Mexico,UNM)图书馆主持的地球科学数据DataOne项目(Data Observation Network for Earth)。在上述科学数据管理和服务的研究和实践中,图书馆(以大学图书馆和研究型图书馆为主)扮演着重要的角色,为e-Science和e-Research的数据支撑提供了大量的跨界、嵌入、动态的服务。
各国大学的实践
美国
自2011年美国自然科学基金委员会对科研资助项目提出科学数据管理计划的强制性政策要求之后,2013年,NSF向高校提供了5.323亿美元的科研资金,占NSF资助总金额的81%,使高校成为获得科研资助最多的机构。在这些高校中,越来越多的图书馆参与了科学数据管理的具体实践。2013年7月,基础研究出版公司(Primary Research Group)对世界范围内知名高校图书馆开展科学数据管理服务情况的调查报告显示,大约有63.33%的图书馆给研究者提供如何进行数据管理计划的建议,而在美国,约有72.22%的高校图书馆提供科学数据管理计划制定的咨询服务,而其他国家仅有约50%。这些高校图书馆,有的是以机构库或数据仓储为基础进行演化,如康奈尔大学图书馆以数据仓储DataStaR为数据组织和存储平台开展科学数据管理工作;有的是图书馆与科研机构合作,深入到科学研究过程中,如麻省理工学院与美国惠普公司实验室合作创建Dspace数字资源存储系统;有的是图书馆主导实现特定的科研项目,在项目实施的过程中,图书馆扮演着科学数据管理的主导性角色。在这些科学数据管理过程中,麻省理工学院等多个高校图书馆以其科学研究环境为基础,积极探索科学数据管理流程,成为科学数据管理的主力军。
麻省理工学院图书馆--数据管理和出版服务
麻省理工学院(Massachusetts Instituteof Technology,MIT)图书馆面向研究社团专门提供了相当系统和全面的数据管理和出版服务(Data Management andPublishing)。在这个服务过程中,主要由生物科学、工程技术和社会科学等学科的学科馆员以建立数据管理和出版服务网页、提供各类详细的指南和文档、协助研究人员制定数据管理计划、提供个性咨询等方式参与数据管理服务并提供较为全面的数据管理和出版服务。此外,MIT图书馆还从研究概念确定、数据收集、数据存储、数据发现、数据分析等数据生命周期的不同阶段向用户提供相应的服务。
耶鲁大学图书馆--研究数据管理服务
耶鲁大学(Yale University)的数据管理服务是在图书馆的学科馆员协助下完成,主要内容分为:
1.管理研究数据(Managing researchdata):如提供指南和文档便于科研人员了解国家对研究数据管理的相关政策、数据文件格式、数据存储与备份等相关的咨询服务;
2.数据共享和再利用(Data sharing &reuse):数据共享的目的是为了鼓励更多的研究、杂志等参与数据出版的整个过程,在主题机构库中进行数据共享;
3.数据管理计划(Data managementplans):采用DMPTool实行数据管理规划;
4.工作平台(Workshops):目前正在建设过程中;
5.更多可参考的资源:包括可供查看的耶鲁大学Data&eScience Group的规定、其他学校数据管理指南汇集以及其他学校整理的优秀的数据管理培训内容等。
弗尼吉亚大学图书馆--科学数据咨询服务
弗吉尼亚大学(University of Virginia,U.Va)图书馆成立了专门的科学数据咨询组(Data Management Consulting Group,DMConsult),从计划撰写、项目启动、数据收集、数据分析、数据共享、项目结束等数据生命周期过程中,对数据进行发现、存档,以为用户作出正确的决策,并使得研究数据能在未来可以得到持续地利用。弗吉尼亚大学图书馆提供数据管理的服务主要有数据管理计划的支持,如提供NSF数据管理计划相关问题的咨询服务;鼓励研究人员对DMPTool的使用;数据管理计划组件服务,包括文件格式和数据类型、组织文件服务、安全存储备份服务、数据共享、版权隐私保护等。
明尼苏达大学图书馆--管理你的数据
随着数字化的趋势,美国明尼苏达大学(University of Minnesota)图书馆意识到需要在数字环境中加强科研数据管理。为此,明尼苏达大学图书馆实施了新的服务--“管理你的数据”(manage yourdata)。通过实践、培训、辅导等形式,为科学研究者提供数据创建、存储、分析、分发、长期保存等解决方案。具体的服务内容有:数据管理计划,为创建数据管理计划(DMP)提供模板;数据版权和合理使用;数据保存和存档;数据共享和数据发现;解决数据保存和长期可获取等问题;定期培训并发布培训课件。此外,图书馆还重点利用学校建立的数据或机构仓储以及已有的基础设施,与校园内其他部门合作以建设科研数据管理的软硬件环境,如与明尼苏达信息技术办公室、明尼苏达机构库、明尼苏达大学塞博基础设施联盟合作,促进数据管理的实施与执行。
康奈尔大学图书馆--数据阶段型存储库
康奈尔大学(Cornell University)图书馆针对本校研究者的数据管理服务项目是“数据阶段型存储库”(Data Staging Repository,DataStaR),以机构库为基础,为研究者共享数据集提供暂时的、过渡性的存储节点,并设想在未来建成一个数据管理平台及形成一套完整的服务方案,由图书馆员负责,通过协助研究者完善数据和元数据以促进共享,以使数据成果能够获得长期使用和保存。DataStaR项目在进行数据管理过程中有一些特殊的做法,如用户对上传的初始数据集可以自行调整甚至删除,也可以根据个人需要和意愿自行设定共享范围。同时,DataStaR制定了富有弹性的存储政策,不强制学者提交数据,也不规定数据集只能发布到康奈尔大学图书馆的eCommons中,而是在完成数据管理之后,恳请学者同时在学科库和机构库中发布成果。图书馆在这个过程中从“以藏为主”转变成为一个活跃的科研代理人,为科研数据交流、知识共享提供机会和桥梁。为了更好地扮演桥梁的角色,康奈尔大学图书馆于2008年7月创建了一个研究数据管理服务组(The DISCOVERResearch Service Group,DRSG),成员包括学者、计算机专家、图书馆员和来自Fedora Commons社区的机构库建设者,DRSG通过开发用于数据管理的软件,为研究者提供方便的数据管理和保存方案。
英国
在英国,科研资助主要来自4个公共基金:高等教育拨款委员会(Higher Education Funding Council for England,HEFCE)、英国研究理事会(Research Council UK,RCUK)、惠康基金(Wellcome Trust)和研究信息网络(The Research Information Network,RIN)。这些科研资助机构分别在不同的年份对数据管理和共享发布了不同的政策,政策中提及最多的内容是数据访问、数据保存、数据共享、数据版权、机构库等。在这些政策的支撑下,许多科研机构(主要以高校为主)也相应地制定了本机构的数据管理与共享计划。在具体实施这些计划过程中,英国高校图书馆扮演着重要的角色。
剑桥大学图书馆
剑桥大学图书馆(Cambridge University Library)成立了数据管理网站,还开发了自存档机构库DSpace@Cambridge,以促进科研成果的保存与传播。该校师生可以方便地将他们的研究论文、科研数据、图像以及多媒体资料等各类型科研资料与成果存储在该数据平台并与其他人共享彼此的成果。这是英国Incremental项目的一部分,该项目是由剑桥大学图书馆和格拉斯哥大学人文科学先进技术与信息学院(University of Glasgow‘s Humanities Advanced Technology and Information Institute,HATII)合作,并在JISC资助下完成。目的是给研究者、计算机技术人员以及管理人员提供管理和再利用数据的工具,并能使相关部门尽可能轻松地保护电子资源。图书馆在进行数据管理与服务中,主要在以下四个过程中提供服务:
1.创造你的数据(Creating yourdata):在构建研究数据时,注意数据采集、数据规划以及在这个过程中应该遵守的知识版权保护和道德规范;
2.组织你的数据(Organising yourdata):在组织研究数据时,对数据进行命名、组织文件结构、版本控制以及对数据进行实时记录;
3.获取你的数据(Accessing yourdata):主要是研究者如何获取自己的数据资源、外部数据资源以及在管理数据过程中进行协作并发布数据资源;
4.管理你的数据(Looking after yourdata):主要涉及到对数字资源的存储、备份以及实时保护研究者数据、存档和数据共享。
此外,为了能够帮助研究者尽快地熟悉这四个过程,以更好地进行数据管理,剑桥大学图书馆还提供了多种形式的培训内容。包括专门对考古学和社会人类学研究者的培训课程、对研究生的数据管理培训课程、剑桥大学本校研究者的培训课程、校外研究者的培训课程、专题研讨会形式的培训,这些培训的内容以PPT、PDF 或是音频等形式在剑桥大学、剑桥大学图书馆等相关网页上展示,并提供浏览、下载。
爱丁堡大学图书馆
爱丁堡大学(The University of Edinburgh)信息服务部从制定数据管理计划(RDMplanning)、数据管理基础设施(Activedata infrastructure)、数据工具与服务(Data stewardship)、数据管理支持(Datamanagement support)等四个方面规划了2012~2014年度的数据管理实施路线。在这个实施路线中,爱丁堡大学设置了数据管理机构--EDINA与数据图书馆(EDINA andData Library),并设置了数据管理岗位,共有4个,分别是:数据馆员,副数据馆员;高级数字学习咨询师;数据图书馆助理。EDINA与数据图书馆的具体职能包括:
1.数据图书馆和咨询(Data Library &consultancy):包括为分析、教学、课程发展检索、获取、使用研究数据;
2.数据仓储,数据共享(Datarepository:Data Share):包括为学校研究者提供出版研究数据服务;
3.研究数据管理指南(Research datamanagement guidance):通过研究者的研究计划为研究者规划和保证数据安全提供在线指南;
4.研究数据管理培训(Research Data Management Training):通过软件练习的方式为从事研究的学生和员工提供在线培训课程。
具体来说,爱丁堡大学图书馆的角色是:给研究者提供在线帮助、工具包、模板;对数据管理的政策进行宣传,提高研究者对数据管理的认识并对数据管理的完善提出具体的建议;对数据进行存档以及对研究者的数据管理技能进行评估;对数据管理的效果和影响进行监测等等。
南安普顿大学图书馆
南安普顿大学(University of Southampton)在2012年2月,制定了数据管理政策(University of Southampton Research Data Management Policy),并对研究数据的类型、存储、备份等进行了详细的介绍。研究数据管理由图书馆的LibGuides 负责,并在该校图书馆页面上提供了类似“数据管理计划”网页,指导科研人员制定数据管理计划。图书馆的参考馆员、学科馆员或是联络馆员将在帮助研究人员制定数据管理计划中扮演重要的角色,并且在数据管理过程中,馆员和研究人员通过沟通形成了良好的关系,以了解其数据管理需求,辅助其制定数据管理计划。图书馆主要的服务内容有:
1.数据管理规划(Data Management Planning):包括选择最适合数据存储、获取和管理的形式、明确研究者的角色和责任,等等;
2.数据描述(Data Description):建立元数据;
3.数据共享(Sharing):根据相关政策和相关规定,为数据的被发现和利用提供最有效的途径;
4.数据保留(Retention):为研究数据的长期存储和保存做准备;
5.数据存储(Storage):按照研究文件存储流程进行研究数据的存储;
6.培训(Training):为研究者提供在线等多种形式的咨询与辅导。
埃克塞特大学图书馆
埃克塞特大学图书馆(University of Exeter Library)把研究数据广泛地定义为测量内容(measurements)、数字(numbers)、图像(images)、文献(documents)、出版物(publications)等。在JISC的资助下,形成了“开放埃克塞特项目”(Open Exeter Project),并通过该项目建立了研究数据管理网站,该网站的内容由图书馆负责维护,主要提供的研究数据管理内容有:
1.创建(Create):包括数据管理规划、创建数据管理规划指南、数据管理规划资助者具体的指南;
2.组织(Organise):包括对数据文档和文件的命名、版本控制、文档支持和元数据、参考文献管理;
3.获取(Access):包括借助网络或是离线形式获取数据、数据共享、开放存取;
4.维护(Maintain):包括数据存储、备份、数据选择和评估、长期保存、数字机构库、数据引用;
5.推广研究(Promote your research):开放存取、使用社会媒体;
6.培训、支持和指南(Training,Support and Guidance):为学生、监管者进行培训、案例研究和指南、数据信息安全培训等。
随着科研数据管理逐渐成为图书馆学研究和实践的新领域,国内外高校图书馆在参与科研数据管理方面都已取得了一些成果。在国外,高校图书馆主要是作为学校科研数据管理项目开发的组织机构之一,或是对科研数据管理的基础设施进行搭建,或是主导学校特定的科研项目,图书馆在这个过程中以已有的资源为基础,拓展图书馆已有的服务;而在我国,高校图书馆参与数据管理的数量还不是很多,已有的一些图书馆主要参与形式是先以平台研发为主,再结合本校的特色资源服务于本校研究人员,以显示图书馆在科研数据管理中的主导性角色定位。但总的来说,国内外高校图书馆在积极探索科研数据管理的实践中,都注重自身的信息组织和传播职能,强化图书馆作为数字时代信息管理中心的职能,力争在E-science环境中承担起科研数据管理的任务。(作者单位为北京大学信息管理系)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。