华南理工大学木棉搜索引擎 (网址:http://search.scut.edu.cn/index.html)是来源于中国教育和科研计算机网CERNET早期搜索引擎研究项目“中文编码和分布式中英文信息发现”(国家“九五”攻关项目)的三大搜索引擎之一,由华南理工大学信息网络工程研究中心(广东省计算机网络重点实验室)于1996年底开始研发。
木棉搜索引擎从当初项目启动到现在经历了四代的发展变化,服务内容由最初的简单网页内容检索发展到多媒体检索;检索技术由单纯的基于关键词匹配发展到目前的布尔模型、空间向量模型与链接关系分析相结合的信息检索技术;整个系统的体系结构也随着互联网的发展与时俱进,由使用单一服务器的简单体系结构发展到基于集群系统的分布式体系结构。
技术特色
早期的木棉搜索引擎以开源项目为基础,以自主开发为主。目前的木棉搜索引擎主要以开源项目为基础进行系统开发,Apache软件基金会的Jakarta项目组的Hadoop、Nutch和Lucene都是木棉系统研发的基础。
基于分布式体系结构进行系统构建是木棉搜索引擎的另一技术特色。木棉搜索引擎面向教育网提供信息检索服务,使用单一的服务器难以满足网页存储和信息检索的性能需求,因此我们采用华南理工大学信息网络工程研究中心的MPP Linux集群系统作为系统运行的硬件平台,采用分布式文件系统作为文件存储的底层介质,系统运行时的信息采集、建立索引和信息检索各个功能模块都采用并发处理的机制,极大提高了系统的性能。
在构建搜索引擎的过程中,木棉搜索引擎充分整合了华南理工大学信息网络工程研究中心在搜索引擎领域的研究成果:信息采集模块引入了文本分类的研究成果,最大限度地保证了教育资源的获取;网页消重和模板去噪技术的应用提高了获取的网页质量;网页采集的策略集中体现了在网页更新算法方面的研究成果;信息检索模块中引入了二次排序、站点聚合等技术,结合PageRank算法构建检索排序结果。这些技术和算法的应用加强了木棉搜索引擎的功能。
用户体验
目前木棉搜索引擎主要面向两类信息检索服务市场,一是面向校园网和企业网等园区网的企业级搜索引擎,为校园网和企业网提供规范的信息检索服务,如华南理工大学校内检索、广州科技网检索系统等,该系统已经产品化。例如华南理工大学校内检索基本涵盖了校内所有可见的网页以及新闻等内容发布系统,包括华南理工大学新闻网和各个学院、机构的新闻网站,方便了用户查找华南理工大学相关资源。另一个是面向教育网资源的全网专题检索,为全世界用户提供教育网信息检索服务。这个系统面向教育网,充分整合了全国各类教育资源,为教育网用户提供好的信息检索平台。
在检索功能方面,除了采用传统的信息检索技术外,还采用了一些丰富用户检索体验的技术,以提高系统的可用性,基于拼音的书写纠正就是其一,这个功能模块的加入使得系统能够在用户输入错误查询词的情况下将系统认为正确的查询词展现给用户。
相关查询是方便用户使用的另外一个功能,这个模块从用户查询日志中提取用户查询,将用户查询词与查询日志中的其他查询词进行比对,提取相关的部分返回给用户,以供用户选择,查询相关的内容。
系统体系结构
与一般意义上的搜索引擎类似,木棉搜索引擎的体系结构,主要包括信息采集系统和信息检索系统两部分。其中信息采集系统可以支持企业内部信息和内容发布系统的信息采集,以及教育类信息的专题采集。采集系统与信息检索系统都建立于集群系统之上,采用分布式的体系结构,充分利用并行计算的优势,并采用Hadoop分布式文件系统作为文件存储的中间媒介。图2是木棉搜索引擎的体系结构。
教育资源专题采集系统
采集系统包括一个负责任务分配的主节点和多个负责抓取、解析和存储网页的工作节点。主节点把采集任务按照工作节点的数目分成多个子任务,放到一个先进先出队列里面;工作节点在发往主节点的心跳信息中,告知主节点自己的工作状态。如果主节点发现任务队列非空并且工作节点处于空闲状态,就为该工作节点分配任务;工作节点在接受到任务后,则马上开始执行相关工作,并继续通过心跳信息向主节点报告任务执行进度。
为专注于教育资源的采集,采集系统实现了专题信息采集策略。首先,引入文本分类相关技术,利用贝叶斯分类器对教育类和非教育类网页进行分类;并通过对网页链接的分析,把链接分为指向教育类网页的链接和指向非教育类网页的链接,通过对链接及其周边的信息,比如链接的锚文本、相邻链接的锚文本,进行学习和统计,实现了一个对链接的分类器。最后,利用链接分类器在抓取网页之前判断网页是否属于教育类网页,根据结果决定是否优先抓取一个网页。
分布式信息检索系统
木棉搜索引擎的分布式信息检索系统由4个模块组成,分别是负责建立索引的Server节点、负责响应查询的Proxy节点、负责底层读写操作的Client节点和提供附加检索服务的Checker节点。
在建立索引的过程中,Server节点将HDFS中的数据转换成符合Lucene格式的文档,并通过文档队列尽量平均地分发到各个Client节点之上。在检索过程中,用户通过Web页面提交的查询词首先会到达Proxy节点,Proxy节点将查询进行必要的封装并分发给Client节点,每个Client节点计算出了最匹配的查询结果,并将这些初步的结果返回给Proxy节点;Proxy节点在收集到所有的返回结果后,对返回的结果进行第二次排序,并根据用户需要的返回结果的数量,返回与用户查询最相关的一组结果。
木棉搜索引擎在信息检索模块中采用了冗余备份机制。由于Client节点要进行大量的磁盘读写操作和计算排序操作,一般会处于高负荷的工作状态,所以有必要在Client节点之间进行冗余备份。备份机制的引入,使得系统在出现少量计算节点崩溃的情况下,检索的服务依然能够正常进行,并且在需要的时候,管理员可以通过启动新的节点恢复崩溃节点的数据。
总结和展望
要成为一个好的和有用的企业级校园网搜索引擎和教育信息搜索引擎,木棉搜索搜索还面临着许多挑战。首先,需要继续完善专题信息采集系统,提高采集数据的质量;为增强用户体验,拟为企业网和校园网用户提供个性化检索服务,增加结果的聚类、个性化排序等功能;为进一步提高检索准确性,针对中文的特点,解决人名、地名、专业词汇、新生词汇的识别问题,实现一个自动更新的词典,提高中文分词的准确度;实现基于内容的图像和视频检索算法,满足用户多样的信息需求;其它如网页重要性评估、结果得分算法、用户行为分析等都是木棉搜索引擎研究开发小组正在努力改进的问题。木棉搜索引擎将更加注重新一代搜索引擎技术的智能化、结构化、多样化、专题化和个性化,进一步提高用户获取知识与信息的效率。
目前企业级搜索引擎已经成为企业网和教育网的核心业务。企业对信息资源的管理正经历从单纯的内容管理到创造价值的过程,对于企业而言,最大化最高效率地实现信息的商业价值和知识价值已经变得越来越重要。
此外,教育信息化正在逐步深入,整个校园网信息的综合利用依赖于对信息的有效控制和管理。校园网信息整合的龙头是搜索引擎。我们希望通过搜索引擎实现校园网电子邮件、新闻、BBS、博客和档案系统各种信息的互通,例如教师和学生可以通过搜索引擎快速地定位电子邮件内容,并直接放到自己的博客上。
在大型搜索引擎技术的研究方面,我们希望继续完善教育资源搜索引擎,提供学校、教师、专业、课件、论文以及教学多媒体资源信息的综合检索,我们还致力于与国内研究单位合作形成中文分词的标准数据集,并为中文信息检索和网络信息安全等领域的技术研究和测试贡献数据集。总之,我们希望立足于教育网,认真研究和力图解决新一代搜索引擎应用中所带来的新问题和技术挑战,使得木棉搜索引擎可以更好地为教育和科研服务,为用户提供高水平的信息检索服务。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。