目前,十多个数字机构仓储系统DSpace版本已经公开发布,其最新版本是1.4.2。截至2009年5月,DSpace官方网站注册用户机构已达593家,分布在66个国家。在短时间内,DSpace系统得到了广泛的应用和普及,其强大的功能和使用的简单性得到了普遍认可。
大量资料亟待保存
随着科学研究的不断深入,高等院校中的各个院系、科研机构、实验室等都会产生大量复杂的不同格式的数字化科研资料和学术出版物。为此,上述机构需要花费大量的时间和精力去收集、整理、保管这些资料。这样就给这些资料的再利用带来诸多不便,并且各个机构之间在共享资料方面也会存在很多困难。麻省理工学院(MIT)图书馆主管Ann J.Wolpert看到这种现象以后,认为图书馆有必要为这些部门机构提供一种数字机构仓储服务。在她的倡导下,MIT图书馆与惠普实验室共同开发了一种数字机构仓储系统——DSpace。
麻省理工学院于2002年11月向全球发布了DSpace开放源代码系统的第一版本。其主要目标是:开发一个知识内容管理平台,收藏的知识内容是世界领先的研究型大学的知识产品;通过开放源代码社区促进DSpace服务的持续发展;促进文献存储与学术内容长期保存的双向发展。需要该服务的任何机构,都可以免费获取并且自由使用DSpace系统;有志于继续发展和完善DSpace系统的机构或者个人,都可以对其源代码进行修改或者改进,也可以加入开放源代码社区,为DSpace的发展做出贡献。
2007年1月,宾夕法尼亚大学图书馆对DSpace体系结构和未来发展方向进行了用户调查,成立了由HP公司、MIT开发人员、知名高校图书馆以及科研人员组成的DSpace体系结构专家小组,开展了0DSpac 2.X软件架构的设计和开发。
六大功能保管数字资源
DSpace系统的工作原理示意图如图1所示。DSpace系统主要包括6个功能,分别是:数据处理、数据描述、导入和导出、权限管理、浏览与检索、统计与订阅。
数据处理
DSpace系统主要用于长期保存和管理各种机构数字化资源,包括期刊论文、图书、数据集、学习资源、图像、3D图像、地图、乐谱、设计图、预印本、录音、音乐、软件、技术报告、论著、视频、工作文档等。
DSpace将其拥有的全部数字资源从总体上划分为若干Community(共同组织),通常是指大学中的院系以及科研机构的各个部门,它可以容纳该组织中的所有相关资源。Collection(馆藏集合)是指Community下的逻辑相关资源集合(比如,某个课题组)。Collection由多个Item(数据条目)构成,每个Item中包含一个存档文件的所有存档元素,存档元素主要包括元数据集和若干Bundle(数据包),多个Bundle可用于表现复杂的知识对象(比如,包含图片的HTML对象)。每个Bundle中还会包含Bitstream(位流数据)存储格式。
数据描述
由于DC(Dublin Core)元数据具有简单、通用等优势,所以被DSpace系统采用。DSpace系统中包括3类DC元数据,即结构型元数据(Structural Metadata)、管理型元数据(Administrative Metadata)和描述型元数据(Descriptive Metadata)。其中,结构型元数据中包含了如何给用户显示条目或者条目中的比特流信息。
在DSpace系统中,描述型元数据元素标识符(Identifier)的限定词URI的值是由CNRI(Corporation for National Research Initiatives)提供的Handle系统来赋值的。
常常会出现这样一种情况:由于某种原因,用户在点击一个网页的链接时,发现原有内容已经更换或者原有内容还存在但已经更换链接地址(也可能已经成为死链接)。为了避免出现这种情况,DSpace开发人员利用CNRI提供的Handle系统,为每一个条目、集合、共同社区产生一个全球惟一的永久性统一标识符Handle。这就意味着,无论条目、集合、共同社区的内容或者物理位置发生了什么变化,用户只要使用该Handle且Handle服务器运行正常,就可以找到相应的条目、集合或者共同社区。
导入与导出
各种不同类型的数字化资源被提交到DSpace系统以后,就构成其基本条目单元。条目既是DSpace系统存储库中的基本存档单元,也是DSpace系统数据导入的基本单元。DSpace系统的数据导入有2种方式:一种是通过Web界面来提交条目,每次只能提交1个条目;另一种是在文本界面下采用命令行方式将一批条目导入到相应集合下。
考虑到数据交换、数据备份以及系统间数据迁移等的需要,DSpace系统提供了相应的导入与导出脚本工具。如果用户利用导出脚本工具,就可以导出某个集合下的1个条目或者所有条目。导出的条目为1个文件夹,文件夹中包括contents、dublin_core.xml、handle、license.txt、数字文件等5个文件。其中,contents文件指明了主要数字包(即license.txt和数字文件),dublin_core.xml文件中包含了该数字文件的所有DC元数据。相反,如果用户利用导入脚本工具,就可以将上述导出的条目导入到本系统或者其他DSpace系统相应的集合中。
条目提交或者导入以后,还不能正式归档到DSpace存储库中,需要经过审核人员审核并确认后才能正式归档。
审核人员审核的内容包括:提交的条目内容是否符合要求,条目元数据是否正确或者规范。然后,对该条目进行确认,分为正式归档、修改后归档、拒绝该条目等3种情况来处理。
DSpace系统将这一过程称为工作流,并且按不同功能权限将工作流细分为3个步骤:
一是接受或者拒绝新提交的条目;
二是编辑新提交条目的元数据,并接受或者拒绝新提交的条目;
三是编辑新提交条目的元数据,但不能拒绝新提交的条目。
执行完上一个步骤以后才能够执行下一个步骤。当然,如果系统设置时忽略了某一步骤,则直接跳入下一步骤。如果3个步骤都被忽略,则新提交的条目提交完后直接正式归入DSpace存储库。
权限管理
DSpace系统中的权限管理包括2个部分:一是用户授权管理,二是对DSpace数字对象的权限管理。
1.用户授权管理
DSpace系统中对用户及权限的管理主要是基于群组(group)的管理。所谓群组,是指具有相同功能权限的用户集合。对单个用户的管理主要包括对该用户在DSpace系统中注册信息的管理,是否允许该用户通过Web界面登录系统,是否需要相关凭证才能登录系统、删除或添加新用户等。
对群组的管理主要是群组成员的管理及群组权限的管理。群组成员管理包括了随时添加或删除成员。群组权限的管理主要是指为该群组授予何种角色,角色主要包括管理员(Administrator)、匿名(Anonymous)、集合管理者(Collection Administrator)、条目提交者(Submitter)、工作流执行者(WorkFlow)等。
2.数字对象权限管理
对数字对象的权限管理主要是指对上述社区、集合、条目、数字包、比特流的权限管理。各个数字对象的权限都可以赋予某个群组,然后群组成员都可以执行相应权限。需要注意的是,DSpace中没有删除的权限,只有移除的权限,即“删除”并不是从物理上将数据去除,而是将数据隐藏起来。
浏览与检索
浏览和检索功能是了解DSpace内容和使用DSpace系统的重要方式和手段。DSpace系统不仅为用户提供了按题名、作者、出版日期来浏览DSpace存储库中全部条目的功能,还提供了选择相应的社区或集合后,浏览该社区或集合下所有条目的功能。这些浏览功能大大方便了各种不同用户的使用。
在浏览某些条目时,只有下载到本机硬盘上以后才能浏览观看。例如,对于音频和视频数字资源来说,需要安装播放器等相关应用软件以后,才能进行观看。对于网页、图片等条目来说,则可以直接在Web浏览器中打开查看,无需下载到本机。
统计与订阅
DSpace系统拥有强大的日志记录功能,对系统的安装、运行和使用情况都有详细的日志记录。使用DSpace系统自带的日志分析工具可以对系统使用情况进行统计分析,可以得到对管理员或用户有帮助意义的统计报表。统计报表包括了以下内容:条目被浏览或阅读的次数,集合、社区被访问的次数、通过OAI被访问的总次数、归档内容概要、用户登录情况、最常用的检索等。通过定制,这些统计报告可以按月呈现或只呈现总的情况,可以让所有用户看到这些统计报告,也可以定制为只有部分管理员可以看到。
如果用户对某一专题的集合或者多个集合下的条目持续关注或者感兴趣,可以通过订阅(subscribe)的方式来了解这些专题的最新条目。在每个集合的Web首页都有一个订阅按钮,用户可以通过点击该按钮来订阅该集合的内容。这样,每当有新的条目提交到该集合时,DSpace系统就会将这些条目的简要信息自动通过邮件方式通知订阅用户,以便用户随时了解最新信息,用户也可以随时取消订阅。
应用逐渐普及全球
全球大约有600个机构在使用DSpace来保存和分享各种资料。其中,在DSpace官方网站上登记并使用DSpace系统的教育科研机构已达数百家。为此,麻省理工学院(MIT)和惠普公司专门创建一个非营利机构DSpace基金会,为使用DSpace的众多机构提供各种支持,DSpace用户可以通过DSpace基金会来获取技术协助与支持。
国外风生水起
下文简要介绍的是国际上一些知名机构采用DSpace建立起来的开放获取收藏库。
1.MIT机构收藏库。MIT DSpace是使用DSpace软件开发的一个数字化成果存储与交流知识库,收录该校教学科研人员和研究生提交的论文(包括已发表和待发表)、会议论文、预印本、学位论文、研究与技术报告、工作论文和演示稿全文等,可以按院系机构(Communities & Collections)、题名(Titles)、作者(Authours)和提交时间(By Date)浏览内容,也可以对收藏的内容进行检索,检索字段有任意字段、作者、题名、关键词、文摘、标志符等;还可在线看到全文。MIT曾于本校教员会议上以全票通过了“开放获取”决议——MIT教员的学术文章对公众免费开放并可在网络上获取。新政策出台后,教员给予MIT非独有的许可权,通过Dspace以开放获取方式传播他们的论文。
2.剑桥大学机构收藏库(Cambridge DSpace)。英国剑桥大学图书馆与该校的计算机服务中心合作,加入MIT 的DSpace联盟项目,建立DSpace@Cambridge 存储库。该项目于2002年底启动,2005年建成。此系统用于存储剑桥大学图书馆的数字化资料和本校其他机构产生的数字资源,如学术交流资料(论文和预印本)、学位论文、技术报告、各个学部和大学档案等,以不同的格式如多媒体、交互式课件、数据集、数据库等形式存储。使用方法与MIT DSpace相同。
3.佛罗里达州立大学机构收藏库。美国佛罗里达州立大学的D- Scholarship是为该校院系及其研究人员提供对自己的研究成果和教学资料实施自我存档和自我管理的平台。D- Scholarship不仅存储论文的预印本,而且也涉及其他几乎任何基于电子格式的学术内容,包括工作文档、技术报告、会议录、实验数据、电子演示文稿、多媒体文件和简单的网络文献。佛罗里达州立大学的各个院系和研究人员都可以与图书馆签订协议,成为仓储建设的参与者,同时也是仓储服务的使用者。在建设和维护方面,D-Scholarship仓储强调院系各研究人员的自行提交、自行存储和自行管理的原则,从而使其成本降到最低,允许研究人员免费访问该仓储的任何资源。
4.加利福尼亚大学机构收藏库。eScholarship Repository是美国加利福尼亚大学研究成果的一个收藏库。1999年启动,是其数字图书馆电子学术(eScholarship)项目的一部分,所采用的管理系统来自Berkeley ,可按不同学校浏览和检索资源。
国内跃跃欲试
目前,我国很多机构正在准备采用DSpace系统。其中,北京航空航天大学虚拟现实技术国家重点实验室与惠普于2003年开始正式合作,开展基于DSpace的数字博物馆资源管理发布平台的研究和实践。目前,“虚拟奥运博物馆”已经基本完成关键技术攻关,正在搭建应用系统和内容制作系统。我国其他一些高校图书馆也相继采用DSpace来构建自己的机构收藏库。浙江大学、清华大学、厦门大学已率先将DSpace开源软件引入图书馆数字化建设当中。其中,厦门大学学术典藏库已基本完成DSpace系统的本地化和界面优化工作,是目前我国高校图书馆中利用DSpace系统构建数字仓储的一个很好的原型。
总之,DSpace集资源加工系统、异构资源库整合系统、资源管理系统、资源存储系统、资源调度系统、联合编目系统、馆际互借系统、用户查询和服务系统、安全认证系统、版权保护系统于一体,几乎实现了数字图书馆所要解决的所有功能。因此,只要围绕DSpace这个核心来制定完善的策略、设计合理的工作流、采用成熟的标准和协议,就可以为学术界创建一个更加实用的学术交流与资源共享平台。
(作者单位为北京师范大学管理学院)
来源:《中国教育网络》2009年07月刊
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。