全文检索的多媒体素材库及其设计
2003-09-11 柯和平
【摘 要】 多媒体素材库是远程教学传统资源数字化的存储媒体,实质上也是教师、学生的教学和学习资源中心。多媒体素材库必须有着强大的多媒体信息存储、检索与管理功能。以全文检索技术为核心,结合多媒体数据库技术和流媒体技术建设而成的多媒体素材库检索精度和效率非常高。
【关键词】 多媒体;素材库;全文检索;流媒体
一、多媒体素材库的作用
多媒体素材库,实质上是为教师、学生创造一个教学、学习资源中心。教师在进行教学设计的基础上利用众多有效的素材资源制作适合于学生探究式学习的多媒体教学软件,将知识内容高效地传递给学生,生动形象,充实具体,论证有力的内容有利于学生扩展知识,发展能力。
利用多媒体素材库可以开展多种形式的教育教学活动,诸如教师网上多媒体备课,教师网上多媒体上课,教师网上集体备课;学生进行预习、学习、复习,进行自主型个别化学习,师生进行科研资料检索查询等。
为了满足海量存贮、多路并发、检索快捷、媒体多样、管理方便等需求,可采用全文检索技术、多媒体数据库技术和流媒体技术来设计建设多媒体素材库。
二、多媒体素材库的设计
(一)系统总体技术方案
整个系统的技术框架如下:
整个系统由教学素材上传工具、教学素材入库工具、全文检索和信息发布系统(包括全文检索服务器和Web动态自动发布系统)、流媒体服务器、教学资源门户站点等组成。其核心部分是全文检索和信息发布系统、流媒体服务系统。
文本形式的教学素材直接由浏览器处理;图片形式的教学素材通过一个Web入库界面直接进入全文检索服务器,同时生成一个供预览的缩微图片也保存在全文检索服务器中。声音、动画和视频等形式的教学素材则可以利用转换工具生成流媒体文件,保存到流媒体服务器中以供浏览使用,如果原素材是流媒体格式则直接经过审核进入流媒体服务存储。所有格式的教学素材的描述性文字与该素材在服务器中的文件一一对应。
教学素材入库工具包括流媒体转换工具和素材审核工具。负责完成声音、动画、视频文件的转换及预览所需的流式媒体的生成,负责对所有格式的素材进行审核。审核通过后,生成预览用的文件,保存在数据库中。此项工作由管理员进行。
全文检索和信息发布系统采用TRS的核心技术。用户对所有教学素材库的检索都是通过全文检索和信息发布系统来完成,检索后的结果通过应用服务器发布,发布到网上的教学素材提供预览、细览和下载等功能。对于流媒体形式的教学素材,在页面上可以调用MediaPlayer访问流媒体服务器进行缩微文件的在线预览或整个流媒体文件的在线播放。
全文检索服务器支持海量信息的存储和管理,对海量信息的全文检索有很好的性能。Web应用服务器则利用数据库技术和动态网页生成技术,对Web服务器进行扩展以实现数据库信息的动态自动发布功能。此外,全文检索和信息发布系统还提供管理员工具来管理全文检索服务器中所有对象。
(二)主要技术方案细节
一全文检索和信息发布系统的功能特点与性能指标
全文检索和信息发布系统有两个部分组成:全文检索服务器、Web动态自动发布系统。
1.全文检索服务器
全文检索服务器由两大核心功能模块组成,分别是文档数据管理核心和全文检索核心。文档数据管理核心的主要性能指标如下表所示:
全文检索核心的主要性能特点有:
领先的中文自然语言处理技术——中文词索引,字索引的BI-GRAM,基于中文语言辞典的智能检索以及中文自动分类和自动摘要。
存储需求最低的全文检索系统——通过独特的压缩技术使空间膨胀率保持在-0.1至0.2。
高效检索算法保证并发性能是通过综合应用“线程并行计算”、“索引分区”、关键字Cache、LIFO快速排序等技术使海量中文内容的查询时间为亚秒级。所谓“线程并行计算”是计算机系统结构中常用的算法:用户对计算机提出一个运算请求后,计算机分解成若干个线程,如果顺序运算的话,效率非常慢,采用并行计算将一些不关联的运算同时进行,提高运算速度。“索引分区”是将词表中的词根据顺序或者根据频度分成不同的组,不同组的词索引分区存放,其目的是避免顺序存放时寻找索引文件慢的现象,提高检索速度。“关键字Cache”技术是系统根据查询的关键词频度将活跃的检索词索引信息存放在高速缓存Cache中,以提高查询效率。系统根据查询的关键词频度,将活跃的检索词索引信息存放在Cache中。“LIFO(LAST IN FIRST OUT)快速排序”技术是快速排序技术即“后进先出”技术,使最后提交到数据库的信息排到数据库信息的最前面。
全方位的数据管理——支持Unicode,支持多媒体数据的存储,真正的海量结构(数据规模仅受机器字长的限制)。
全方位的检索——不仅允许使用正文中的任意字、词、句和片段进行检索,而且提供外部特征的检索;多达48种检索运算符以及包括组合检索、位置检索、渐进/历史检索、词根检索、概念检索在内的多种检索方式能够满足专业检索用户;而基于可维护的知识辞典的扩展检索功能,则满足了特殊专业高查准率和高查全率的要求。
2. Web动态自动发布系统
Web动态自动发布系统利用数据库技术和动态网页生成技术,对Web服务器进行扩展以实现数据库信息的动态自动发布功能。Web动态自动发布系统由两个模块组成,一个模块是Web动态自动发布系统管理控制台,另一个模块是Web服务器扩展模块。前者以“信息频道”的概念把数据库中的信息组织成一个个网站上的栏目,比如:学科分类、课程章节等,后者实现动态网页的生成,使得以后在增加信息时不再需要对网站页面作任何修改。
二)流媒体服务系统
采用Windows Media Player流媒体技术实现流媒体素材的上传、存储、显示与管理。
多媒体资源采集:上传者将多媒体资源上传到服务器的磁盘阵列上,信息资源可以是动画、音频和视频。
音视频压缩服务器:采用Windows Media Encoder流媒体编码器把音视频信号处理成流媒体服务器能够播放的流媒体格式(wmv格式)。
音视频播放服务器:采用Windows Media Server实现音视频流媒体服务。
用户Web浏览:通过Web浏览器并使用Windows Media Player播放器,网上用户均可浏览流媒体。
对各类素材的处理方法:
对于已是流媒体格式的文件,如asf、mp3、ram、swf等,由于浏览器可以处理,所以直接进行审核入库,素材的预览则自动调用相应的应用软件打开。对于mov 、wav、mid、midi、mpeg、avi、mpg 等格式,则先经过转换工具,统一转换成wmv流媒体格式。
(三)利用数据库网关技术实现跨库检索功能
利用TRS关系型数据库网关技术,多媒体素材库可以和学院内的其他数据库系统,如VOD系统、多媒体课件库等实现数据的同步管理。检索和服务通过多媒体素材库中的全文检索系统来实现,数据提交和日常维护则通过原有的VOD系统、多媒体课件库系统来各自实现。
由于TRS关系型数据库搜索引擎可以从数据级别上将第三方系统的数据同步索引到TRS数据库中,系统采用开放的数据存贮管理机制,通过数据库网关技术,可以透明连接到Oracle、DBase、SQL Server、SYbase和Informix五个主流数据库,从而实现跨库检索功能。
用户通过浏览器访问Web应用服务器,Web应用服务器向全文检索服务器发出检索命令,全文检索服务器通过数据库网关,检索VOD、多媒体课件库中的节目,检索到后,由VOD、多媒体课件库通过Web应用服务器直接向用户传送多媒体数据。
四)软硬件环境
高性能企业级服务器1台,配置双CPU和千兆光纤网卡,运行Windows 2000 Advanced Server操作系统、SQL Server2000数据库、流媒体服务器软件Windows Media Server等。
三、多媒体素材库实现的功能
多媒体素材库建成之后, 教师和学生可以在校园网络的任一台电脑上查询和使用素材库,并能在任何类目下直接添加素材到本类目。素材上传时,保留前一条上传记录的相关信息,便于用户再次上传属性类似的素材。系统提供树状目录查询和全文检索的关键字搜索查询二种方式。树状目录查询时可以按学科、按素材格式、按素材用途浏览。按素材格式查询时,检索到的图片均以微缩图的方式呈现。可以选择文本库、图片库、动画库、声音库、视频库等五个库中的一个或几个进行检索。所有素材均可进行在线预览。用户选中某一素材后,可以加入到自己的个人收藏夹,供以后调用。提供在前一次检索结果中进行再次更精确的查询与检索。在检索到的条目中,可以利用翻页按钮和跳转框直接进入某一页,实现快速浏览。系统实现跨库检索功能,可以选择多媒体课件库、多媒体素材库、VOD教育视频点播系统三个库中的一个或几个进行查询与检索,查询结果可以在线呈现。实现权限分配和分级管理,必须注册使用,不同级别用户权限不同。转换工具和审核工具采用服务器端管理方式。实现部分基于Web远程管理功能。管理员可以对课程资料、学科资料和素材用途资料进行管理。可以增减、编辑、修改相关的条目,具有良好的系统扩展性。