历经10年摸清现代汉语常用词家底,56008个词使用频率颇高
我们每天都在说汉语,大量的词汇在各种各样的环境中频繁使用,到底什么词使用频率高?无论是语言学家还是普通大众往往全凭感觉。近日,商务印书馆出版的《现代汉语常用词表》(草案)面世,头一回全面披露常用词语家底:当今社会,经常使用的词共有56008个。
这56008个常用词中,包括单音节词3181个,双音节词40351个,三音节词语6459个,四音节词语5855个,五音节和五音节以上词语162个。
常用词表诞生历时10年
早在1998年7月,《现代汉语常用词表》研制项目启动,这是一个庞杂而艰难的项目,由国家语言文字工作委员会组织实施。该词表是作为国家已经公布的《现代汉语常用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。
课题组负责人李行健说:“大家知道现代汉语有常用字表,共收入常用字3500个;有通用字表,收入通用字7000个。但长期以来,一直没有常用词表,常用词有多少?是哪些?一直是个谜。”而推广常用词,对于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等都是急需的。
研制工作中大多是白发退休专家,他们不需要国家经费,迎难而上。他们中有语言学家、有大学教授,今年74岁的李行健说:“完全是出于对语言的兴趣和社会责任感,我们这些老头儿才乐此不疲。”可是谁也没想到,这一路走来,竟然走过了10年。增补、修订,再增补、再修订,最后才有了放在人们面前的《现代汉语常用词表》。李行健介绍,常用词检测词频的语料库有三种:一是国家语委研制的“现代汉语通用语料库”核心语料库,这个通用语料库收有4500万字语料,缺点是有的词年代久远,如今已不经常使用。二是《人民日报》2001年至2005年约1.35亿字的分词标注语料;第三种是厦门大学研制的现当代文学作品语料库,约7000万字语料,总共2.5亿字。
目前我们看到,在《现代汉语常用词表》中使用频率越高的词排序越靠前,使用频率越低的词排序越靠后,这种降序排列让人一目了然。李行健说,研制过程中采取了课题组独创的“词频频级排序法”。由于词语的来源比较广泛、各自不同,各种语料都有自己的覆盖面和构成特点,词表中的词语不能在每种语料中都得到全面显现。比如,同一个词,在三种语料库中的词频就会不同,有的还差别很大。为了科学反映每个词较真实的词频,采用了频级的统计方法,即将每个词语的三种语料的频级之和除以三的办法。这样就能较好反映出一个词现实生活中的综合的常用度,在此基础上,再由专家进行人工审核筛选,“也就是说,这些常用词的出笼是客观和有科学依据的。”
一个时代有一个时代的关键词
从56008个常用词中,我们很容易触摸到我们所处这个时代的关键词、热点词。
李行健举例说,在热点词中,新中国成立前,“看相、抽签、算命”,可能是相当活跃的词语,现在已不是常用词了。解放初期,“土改、统购统销、合作社、互助组”词频相当高,如今在常用词中已不见踪影了。曾经在“文革”中红红火火的词,如“斗争、阶级、样板戏、走资派、臭老九”等等很常用、很热闹的词语,现在已经退出了常用词的舞台,其生命力也随之走向衰落了。
而如今,“法律、汽车、市场、资金、责任、成功、精神、文化、价值观”等等则变成了出现频率相当高的常用词。民间词语收藏家黄集伟认为,这些词与老百姓的生活密切相关,它所涉及的领域一定是社会的热点,也一定是我们社会生活变化最快的那部分。比如“价值观”,黄集伟就认为,这个词是常用的中性词。改革开放后,我们现实生活中发生了很多价值观的大讨论,这个时代发生的许多争论、争吵,比如对与错、道德与情感,种种社会矛盾等,总的来说都隐含着价值观的不同。
词汇是随社会发展变化的,它是社会变化的一面镜子。社会中出现新的事物,如“宇宙飞船、电视、手机、股票、证券”等等,人们就会创造出新词来记录反映它们。词语使用的频度决定于它同人们社会关系的程度,所以一个时代有不同的常用词表。
|