目前,互联网资源正以几何级数增长,但是还没有一个搜索引擎的数据库可以和整个互联网的增长保持同步。虽然,每个搜索引擎都在力图为用户提供全面而准确的信息,但是它们不能建立一个可以镜像整个互联网的数据库系统,因此,我们需要一种全新的信息检索系统。
为此,华中科技大学图书馆提出了一种全新的信息检索系统——域内资源整合系统(Domain Resources Integrated System,简称DRIS),为整合互联网上的所有信息资源提供可行性方案。
“搜索引擎+ D N S”的思路
对DRIS的研究主要来源于对馆内资源整合和数字图书馆联盟建设的研究,以及对搜索引擎和网格技术的相关研究。“信息检索应成为互联网的内在功能,每个人都应该有自己的搜索引擎”是设计本系统的核心思想。DRIS要建立的是互联网信息检索的基础建筑,而不是最终的搜索引擎。
我们从DNS 技术的发展得到基本的启发。在DNS 系统建立之初,仅仅有数百个Web站点,而相应的DNS数据库可以存储在单个服务器上,但是当WWW上站点的数目达到上百万个,各个站点分布世界各处且更新较为频繁时,仅有的几个DNS服务器显然难以有效管理如此多的站点。因此DNS最终发展成为一个分层的分布式系统。
如今几乎每个高校和大机构都有自己的域名服务器,而互联网上所有的站点都能在此系统中得到有效的管理。
但DNS仅仅起到WWW上“浏览和导航”的作用,我们还需要必要的网页检索功能,因此出现了网页搜索引擎。但是由于种种原因,目前所有的商业搜索引擎都采用了集中式构架。随着WWW的迅速扩张,网页搜索引擎也遇到了当初DNS遇到的问题:如今已有上百亿的网页分布在世界不同角落的服务器上,而当前的搜索引擎却要反复地访问并下载全部的网页到一个数据库系统中,数据的更新率和覆盖率根本无法得到保障。显然,集中式的框架是不适于分布式的WWW信息管理。
参考DNS改进和发展的历史可以发现,Web搜索引擎若像DNS那样采用一种等级分布式的框架,一些基本问题就可能得到解决。既然DNS能够索引各个站点的名称,那么是否也能索引整个站点的所有网页呢?我们为DRIS设计了“搜索引擎+DNS”的基本思路。
DRIS采用了DNS 的地域分布式构架,建立一种新的信息资源整合与检索平台。此平台在合适的范围内,采用不同的信息检索系统,建立一种适合整个互联网信息管理的基本构架。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。