中国教育网讯,11月24日消息,由教育部科技发展中心主办,《中国教育网络》杂志承办的“2009(第四届)教育信息存储大会(北京站)”今天在清华大学举行。中国教育网做现场报道。
图为:中国科学院国家科学图书馆信息系统部主任 张智雄
下面是中国科学院国家科学图书馆信息系统部主任张智雄演讲实录。
主持人:虚拟化技术以及节能降耗吸引很多学校的注意,明天上午分论坛有关于学校节能降耗研讨,欢迎大家前来。下一位演讲嘉宾是中国科学院国家科学图书馆信息系统部主任张智雄博士,他演讲主题是数字保存:数字时代信息中心(数字图书馆)的一项重要战略。大家掌声欢迎!
张智雄:我是在图书馆界做的,在数字长期保存做了一些工作,跟我们网络中心或者信息中心打交道来看,有很好的设备、PB储存量,他们做什么?他们有很多的困扰,国外已经开展很好了,国内这一块不是很好。所以借这个教育大会介绍一下。
本来四个部分,这里主要讲第一个、第二个、第四个。大家都说数据管理从生活上、工作上有很多数据,这个数据充斥我们生活。科学来讲特别是教育和科研这一块E—Science,刚才几位讲了怎么把过去数据采集,怎么处理?怎么数据共享?还有数据怎么应用等等,围绕数据来讲,E—Science在这种条件下,科学数据是E—Science的灵魂。
国外也在加深计算作为科研的工具出现,数据也要成为很科学的东西出来,美国基金会、包括英国都在用数据驱动学术研究很多。包括微软前一段出了一本书,怎么样数据基础上发现科学的规律,他讲了很多数据成为科研重要的部分。我们看到我们有很多数据、有很多资源,数据存在本身有两个危机,一个数据本的因素,导致数字数据很脆弱,另外数字洪流的出现。
我们有一个视频文件,需要一系列设备支持,包括操作系统、放映格式等等,数据储存制约数据自身的发展,它的德国特性导致数据依赖成长,这里边有很多阻碍数据的成长,比如大的灾难,光盘、还有媒体已经褪化,原来有一些格式褪化,原来软盘在用,现在用的数据现在没法用了,另外很多格式、文字格式都在不断升级当中,导致很多数据不采取措施也是很多问题。另外包括上下文的丢失等等因素,导致数据马上没了。
另外数据洪流出现,很多充实我们生活,使我们数据不能储存很好的管理。这里引用一个IDC的报告,2007看到数据量已经达到281exatytes,2007年是一个分水岭,存取就是264exatytes,预测2011年,生产数据量应该是现在的两倍。有一篇文章也说了在数据洪流中帮助生还的工具要保证你的数据在你需要的时候它还在哪里。
所以我们需要一些战略,对很多数据进行管理、保存、重新利用,成为应对数字时代的挑战。英国也在说通过相应的管理对数字源可持续的应用。
Curation就是掌管,Atchiving是存档,Preservaticn是保存的意思。我们怎么样把科学数据从产生之后,长时间之后或者在将来还能够被应用,这是重要的数字保证。DCC认为对一系列可信赖的数字信息进行管理保存,使其增值的一个过程。
这是DCC认为数据保存有几个层次,需要做很多工作,第一层传统的层面,科学家做科研有数据,数据完了基本发表相应的文章,有进行出版,很多图书馆参与进来,怎么管理。在这个基础上应对当前数据洪流,这是不够的。他提出第二层次,第二层次需要有存档管理进来,这里边主要做保存很多数据,保证它的真实性可靠,科研数据不能伪造,要做很多工作,把数据收集怎么进行表演等等方面的工作。他们认为还不够,还需要进行第三层,第三层就是怎么对数据进行掌管、控制、管理理念,把很多数据从它产生开始,收集、整理放到里边储存,他认为需要做三层次的保护。
在这里边举一个例子,我们很多网络中心认为数据保存等于数据储存加数据备份,我不认为这是不一样的。这里边有很多标准做这样事情,开放档案信息系统是我们进行数字保存很重要的参考标准,这个数据存很长时间能够被人利用。我们看到备份系统都是有一个专家参与的过程,比如我备份下来保存下去,用什么工具存在什么地方,怎么样恢复等等一系列过程。
但是数字保存系统比如保存一个图象文件,需要做很多工作,第一个把它格式识别出来,它可能需要知道第几个版本,完了呈现软件信息进行记录保存下来,可能还需要技术专家把里头信息保存进去,形成一系列存档包,包括图象信息、存档信息、描述性数据等等,可能技术文档保存下来。过了若干年之后甚至几十年之后,需要把这个数据回来之后,有这个保存数据可以根据记录信息,可以看到相关的标准。
在这个过程中,专家其实不需要存在。这是存档系统很大的区别在这个上边。我们认为数据保存很重要,对我们数字对象进行生命周期的管理,随着时间的变化,能够把一种格式转化新的格式,不断对我们数字对象进行翻新,确保它能进行应用。
这是DCC认为数据跟数据对象需要一个一个层次进行工作,对这个数据进行描述,我们要对数据成信息需要组织在一起,经过多长时间需要进行处理,相当于一个数据转化什么样媒体上,做保存并不代表一个机构。在最外层储存相应数据、数据完怎么评价,完了我进行放到备份里边,怎么保存,存档该怎么处理、怎么应用。很多是这样环境。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。