叙词语言是一些以概念为基础,经过规范化的具有组配性能、显示词间语义关系和动态性的词和词组,它是描述文献资料主题的一种标识符号。叙词语言吸收了其他检索语言的优点,并加以改进。例如,叙词语言吸收了体系分类语言的等级关系,编制了词族表;吸收了标题词语言的规范化处理方法和参照系统,达到了一词一义,发展了词与词之间的逻辑关系,形成语义网络,编制了叙词表;吸收了单元词语言的组配原理,并取代了单元词语言;吸收了关键词语言的轮排方法,编制了各种叙词索引。因而,叙词语言在直观性、单义性、专指性、组配性、多维检索性、网络性、语义关联性、手检与机检的兼容性、符合现代科技发展的适应性诸方面,都较其他检索语言更加完善和优越。
网络信息检索中的应用
在网络信息检索中,叙词语言主要应用在联机显示中的叙词表、检索数据库使用的叙词表、网络搜索引擎及多媒体上的叙词表等等。叙词表提供标准的专业语言,即是用以描述某一个学科领域术语的集合。叙词表中的叙词通过概念组配的方式来提高信息检准率,是信息资源专题检索中最优化的检索方法。
检索数据库中的应用
在一个数据库的索引中,叙词表可以帮助用户选择用词,以便检索到最大数目的相关文献。叙词表用来对出版物的内容进行一致的、全面的和简明的描述,这些词被输入到数据库每个记录的叙词字段中。使用交互性叙词检索,也可以用层次结构、字母顺序或轮排索引等显示方式对叙词进行浏览。许多专业性或学术性检索数据库使用受控叙词表,如PubMed数据库用基于MeSH的树状结构表进行浏览检索,只要在输入框中输入任意规范词或入口词,自由转换链接到与之相对应的主题词的所有等级树中,可以方便地进行缩检和扩检,也可以切换到相关词页面重新选词,最后把选定的主题词自动加到检索策略中进行数据库检索。
叙词表的使用对数据库信息检索质量起到了较好的保障,目前比较常用的配有受控词表的专业数据库有:
(1) 美国教育资源信息数据库:《ERIC主题词表》;
(2) 英国国家数字档案库:《UNESCO主题词表》;
(3) STI数据库:《NASA主题词表》;
(4) UMI数据库:《ProQuest受控主题词表》等。
我们以美国STI(Scientific And Technical information)数据库为例来分析叙词表在数据库检索中的应用。STI的网站地址:http://www.sti.nasa.gov 。NASA宝库(原www.sti.nasa.gov/nasa-thesaurus.html)现在启用新的链接可以自动指向新网址(http://www.sti.nasa.gov/products.html#pubtools),也可以在主页中TOOLS/PRODUCTS/SERVICES栏目里的Publishing Tools找到NASA主题词表, 词表第一卷包含了主题词和定义并使用交互式参考,提供按字母顺序排列相关词列表,层次结构分明,词表简洁和规范专指性强。第二卷提供轮排词的展示,增加了重点词的入口通道。按字母顺序排列查找方便快捷简单实用,词表查阅需下载Adobe Acrobat解读器。词表范例如图:
网络搜索引擎及多媒体上的应用
除了数据库以外,在网络专业搜索引擎上加入叙词表为搜索引擎提供基于叙词表的高级检索服务已经投入使用。叙词表的应用目的是为了加强搜索引擎的控制,提高信息检索的质量。现在基于网络应用开发的叙词表开发软件在国外已投入广泛的使用,叙词表的编制效率得到大幅度的提高,词表也更为精确,词表规模也得以合理的控制,这都为网络搜索引擎的应用提供了条件。如社会科学信息检索导向SOSIG(Social Sciences Information Gateway),网址http://www.sosig.ac.uk/,在高级检索中加入叙词表HASSET (Humanities And Social Sciences Electronic Thesaurus)。以图书馆为例,输入library,得到library and information science、 library services 、library users,在此基础上可以进一步检索更为具体的有关内容。
叙词表的研究领域正在不断扩大,网络信息资源检索中应用叙词表进行导航的研究已引起中外研究者的极大关注。国外正致力于“概念空间化叙词表”的研究,目的是建立一种多媒体信息的语义索引。这种通过计算机进行实时的内容分析,可以理解为一种基于内容的检索技术,从而引入了更为广阔的空间概念。多媒体信息检索中语义索引的思路是建立在一种概念空间的基础上,是基于概念空间与分类的聚类统计。通过概念空间词表界面,用户可以输入任意单词、词组或多个检索词,这时搜索界面会在一个显示框中显示与用户检索词相关程度排序的概念空间词汇,用户可以从中选择合意的词添加到搜索框中,以提高检索的精确度。目前网络上已投入使用的主题词表系统有两种类型,一种是全自动的信息抓取和信息索引搜索引擎。第二种是应用主题词表对Internet网络信息资源进行人工标引和检索的系统。如MWSearch系统的一个选项就是机器自动抓取与人工信息资源选择相结合,全文文献的索引方式既有字索引,也有自动提取的主题词索引。
适应性与不足
叙词语言的优越之处在于用户检索网络信息资源,是希望以较少的努力准确地获得对自己真正有用的信息,检索效率较高的叙词语言具有重要价值。优点是标引精度高、深度大,能实现多途径、多因素检索;直观性强,既简单又明白,有较高的专指度,能提示文献及检索课题的主题概念;标引文献和检索文献时,容易将要领进行相互性比较,并不断调整检索策略;能控制同义词多义词,语词与概念能一一对应,使相关文献相对集中,增强族性检索。
叙词语言在网络信息检索中的不足之处在于过于严格的规范性造成对用户检索的排斥。人工语言检索为了达到较高的检全率和检准率以规范性著称,可正是由于严格的控制措施对用户检索设置了障碍,使人工语言的检索效率受到极大的影响。
首先用户不是检索语言专家,没有时间、精力和必要专门去学习人工语言知识,但是这种严密规范后的人工语言若缺乏对它的足够认识便无法检出满意的文献,而且对于现今不同空间和不同时间的用户来说,不可能每个人都有一部用于检索的主题词表。
其次,叙词语言在标引阶段标引工作难度较大,特别是在文献内容概念和标引词的转换过程中易发生失误。既然标引词是规范的,检索时也应要求规范。
另外,叙词表的编制、修订出版带有很明显的滞后性,不能和科学技术、文献资源网络化产生发展同步,网络电子资源大量涌现,新文献不断产生,论述主题深而广,且交叉学科、边缘学科文献不断出现,但很难在现有的主题词表中找到其准确的反映概念的词。针对叙词语言的不足,我们可以采取叙词与关键词语言(自然语言)相结合模式以达到取长补短的目的。
笔者认为在情报检索网络化的前提下,结合现代科学技术积极开发网络词表编制软件,加快词汇更新,提高文献标引和检索的效率,并适当控制词表规模以适应信息检索网络化、数字化的检索需求是情报语言研究的重要任务。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。