数字资源整合是指依据一定的需要,通过数字资源无缝链接系统,将不同来源和不同通信协议的数据融合,使不同类型、不同格式的数字资源实现无缝链接,将众多相对独立的数字资源按照它们之间的内在联系进行重组,形成统一的、高效利用的数字资源环境。通过整合的数字资源系统,具有集成检索功能,是一种跨平台、跨数据库的资源体系。数字资源整合目的是在于提升网络环境下不同结点的数据之间的关联度,解决信息孤岛问题,向终端用户提供一站式服务,用户在统一的集成界面中检索、浏览和使用所有数字化资源,从而提高系统资源的利用效率。
基于逻辑视图的虚拟化整合策略的特点是对各个分散的数据源进行逻辑视图上的虚拟集成,不要求对数据进行集中存储。
为了满足适用于不同场景的数字资源整合的需求,人们制定了多种协议对资源进行链接。数字资源整合的效率和优度,在很大程度上依赖于各应用协议对资源的组合联系程度,相关协议也成为数字资源整合过程中一个值得关注的重要问题。
数字资源整合的前提不要求资源实体存储的一致性,在其研究发展过程中,人们制定的诸多相关整合协议从资源整合的逻辑视图上着手,对资源从数据层、中间层和功能层等层面进行组织和关联。
数据层整合协议
数据整合是对各异构的、自治的外部数据源进行收集、组织、处理与集成,通过面向各类数据源的有针对性的抽取、转换,消除不同数据源之间的主键、命名、语义等冲突问题,屏蔽数据源的差异性。数据整合的结果令用户可透明地访问多个数据源,使用户以为是在操作单一的数据源。
典型的协议是STARTS 协议。STARTS协议是1996年由斯坦福大学数字图书馆组联合几家搜索引擎制造商共同在“分布式异构资源的检索”中设计的。此后,哥伦比亚大学于DL2项目中在STARTS协议的基础上提出SDARTS 协议,1999 年,美国的康奈尔大学数字图书馆研究组利用CORBA为底层传输层实现了该协议。
STARTS为高层信息搜索建立了统一的查询接口,便于对分布的文本信息进行查询。协议描述了如何查询源以及这些源给出哪些元信息。该协议的体系结构中包含许多资源,而每个资源又可由一个或多个资源组成,同时简单地给出关于这些源的联系信息。一个源即一些简单文档的集合,源与搜索引擎连接,由搜索引擎接受来自客户端的查询请求,并产生查询结果。一个源可以很小也可以很大。
通常一个元搜索器或任何一个终端客户端会向多个源提交查询请求。因此一个元搜索引擎会执行以下2个任务:1.定期从各个源提取源列表,以找出哪些源可用于查询;2.定期提取各个源的元数据与内容概要,以判断哪些源对于某个指定查询是潜在有用的。在资源检索的过程中,用户向元搜索器发出一个请求,元搜索器再将此请求传递给各种资源,并将返回结果进行整合。STARTS便于对分布的文本信息进行查询,整个协议简单并易于实现,具有很强的可扩展性和灵活性。但为了设计简单等原因,STARTS忽略了很多重要的问题,例如STARTS只支持对文本信息的查询,并没有包含进行错误处理的机制,同时也没有考虑数据传输的安全机制。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。