双刃剑带来的责任
无数事实证明,科技信息和科研数据的长期保存对于揭示科学奥秘,发现科学规律有着重要的意义。
中国3200年前商代“甲骨文”中关于“日蚀”的记载导致了现代天体运动规律的发现。
美国自1948年开始的历时数十年的关于Framingham、Massachusetts两州心脏病例的长期调查研究,为揭示心脏病的形成机理提供了可靠的基础。
即使是1975年前苏联金星探测器Venera 9和Venera10所拍摄的、当时几乎被扔进垃圾箱中的低质量的照片,在28年之后,通过美国科学家的技术处理,重新获得新生,通过它们揭示了金星表面的奥秘。
但在数字化生存的今天,数字信息给人们带来便利的同时,也为信息保存和利用带来危机。
2000年底,国内某著名网站遭遇严重硬件故障,文件系统崩溃,导致大部分用户数据无法正常读出。
1996年,加拿大军方就出兵索马里事件在法庭上作证,当时军方所采用的数字化的信息被仲裁委员会认为有造假的行为,不具备真实性。
在德国合并时,曾经有一份记载着很多调查数据、共产党员名单的加密电子文件,可是解密方法却丢失了,使得该资料无法阅读。
信息是把双刃剑。数字信息是非常脆弱的,面临着很多威胁。以目前发展势头迅猛的数字图书馆来说,读者对数字资源的依赖程度越来越大,使得图书馆的责任更大。图书馆的数据保存是个相当重要的课题。图书馆需要在数字信息资源的长期保存中,发挥重要作用。
数据保存及其策略
谈到数据保存,有3个相关概念需要了解:
Curation(掌管):指从数据生产出来时就开始的管理和促进其被利用的行为,目标是使得数据能够符合现实的需要,或能被用于发现和重用数据。
Archiving(存档):在Curation的基础之上,确保数据是经过合理选择,得到良好保存的,并且这些数据可以被存取。随着时光的流逝,确保这些数据的逻辑和物理完整性得到维护,具有相应的安全和认证机制。
Preservation(保存):是一种基于存档(Archiving)的活动,随着时间的流逝、在技术已经变化了的情况下,还能够对存档的数据进行存取。
英国DCC(Digital Curation Center)的保存模型中,我们可以看到,科学家先进行科学研究,在仪器上获取数据,然后发表,拥有专利等等。这是第一阶段的保存,在这里,机构内部没有专门的保存人员。随着研究成果的丰富,需要有专门的人员对研究成果进行存档,这就构成了保存的第二阶段。第三阶段的保存从数据生产出来时就开始,被称为掌管者的人对科研工作各个环节中产生的信息进行保存。
对于为什么要进行数字保存,数字保存的研究团体有着不同的说法。主要有以下几种:
开放档案信息系统(OAIS)模型认为,数字保存系统的目标是要确保被保存的信息对于目标团体而言是独立可理解的,也就是说,应当确保目标团体在没有信息生产者(专家)帮助的情况下,仍能够独立地理解被保存的信息。为了实现这一目标,在保存系统中既要保存存档对象,也要保存针对对象的描述和说明信息。
而PREMIS认为,数字保存的目标是维持数字资源的长期可生存能力(要求被保存数字对象的比特流完整无缺并且能够从它所存储的载体之上读取)、可呈现能力(指的是能够将比特流转变为一种可以被人看,能够被计算机处理的能力)和可理解能力(包括提供足够的信息使得这些被呈现的内容可以被目标用户理解和认识)。
Priscilla Caplan认为,从下到上、从较低要求到较高要求,数字保存的目标分别为:可获得性,即选择获取技术;可识别性,即描述;可理解性,即文档记录;完整性,即安全存储;持久生存能力,即媒体管理;可呈现能力,即格式技术策略;被保存对象的真实性,即真实还原技术。
当前主要有三大数字保存技术策略。一类是迁移,有多种迁移的方式(如硬件迁移、软件迁移、格式迁移等); 一类是仿真,就是在新的系统之下仿真旧系统运行时所需的软硬件环境;再一类是技术保存,它以数字对象的读取、呈现、处理技术为主要保存对象,而不以数字对象为保存对象。三种分类又可分化出一系列的保存方法,如多重备份、适时迁移、开放描述、开放注册、模拟环境、环境封装、通用虚拟计算机(UVC)、数据恢复与数据考古等。
在数字图书馆数据保存策略中有两种方法值得我们关注。一种方法是按需迁移。另外一种则是风干。
当数据格式过时或其他情况发生时,我们需要利用迁移工具将原始的数字对象迁移到新的数据格式下,从而在新的平台环境下保证数据的可用性。然而传统的迁移方法存在着一些不足,即如果在迁移的某一步骤存在错误、遗漏或其他情况,就会影响以后的迁移,会产生不同程度的失真。按需迁移的方法,保存的原始字节流并不随时间改变,只改变迁移原始格式的工具和方式。当以前支持的格式过时,只需在工具上添加新迁移工具,实现新的输出模块即可。
我们要保存很多格式和系统,需要很多技术方法,技术越多,复杂性就越大。加利福尼亚数字图书馆(CDL)的John Kunze博士认为:在数字保存系统中,不要加入过多的技术因素,否则数字保存反而会复杂化。如果今天采用最简单的技术对数字信息进行保存,明天才有可能通过最简单的操作来读取和理解被保存的信息。技术当然是数字保存的一个部分,但是如果对技术的依赖性越大,数字保存的风险也就越大。因此他提出除了移植和仿真之外,还需要另外一种数字保存的方法:Dessication(风干),作为补充保存策略。基于风干的方法,CDL认为对于类似文档(如网页)的数字对象,在保存原始格式的同时,应该同时派生出一个低技术含量的版本进行保存。
数据保存技术体系
由于数字保存技术体系的复杂性和动态变换的特点,很难建立一个完整规范的技术体系,但是确实有必要对现有的技术空间进行适当的梳理、归纳,总结为一个可供参考的技术体系。
在参考了OAIS,借鉴了国外主要保存系统的技术框架和相关技术体系之后,中国科学院文献中心提出了一个数字保存技术体系。
可以看出,数字保存技术分属于保存管理、摄入、仓储、存储管理和访问5个功能块。其中与保存管理相关的主要技术有保存技术策略的选择、保存规划管理、保存工作流管理、保存媒体迁移等方面;与摄入相关的主要技术有格式标准、格式迁移、格式规范和格式注册技术、信息封装技术、安全检测技术、完整性校验技术和数据功能校验技术等;与仓储相关的主要技术有信息模型的构建、保存元数据体系、保存标识体系、内容管理、元数据管理、索引等;与存储相关的主要技术是如何构建大规模安全存储体系,对存储对象进行备份和恢复的技术,它包括常见的磁带存储、光盘存储、磁盘阵列存储,也包括各种类型的分布式文件系统、基于NAS或SAN模式的网络存储和基于网格的存储体系,同时也包括相应的备份和恢复系统;与访问相关的主要技术是如何使仓储的数字对象能够被安全方便地访问的技术,主要包括检索浏览技术、基于保存标识的定位技术、认证和授权技术、与第三方的互操作技术等。
来源:《中国教育网络》杂志
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。