常用双音释词词量及提取方法——对《现汉》双音同义释词的量化分析(2)
对本研究来说最有价值的是只占10%的那502条,从宽的话则可把分值在5-8之间的867条词包括进来。对词典释义语言常用词量的提取来说这是很重要的一份材料。为了有效地对比,下面的统计是将三种频度的释词放在一起进行,以便清楚地看到不同频度词语的状况。
1.释词充当词目的调查。
释词是来自于词典的释义语言,而观察这些释词是否又充当了《现汉》的词目,可以达到两个目的,一是看这些释词的稳定性如何,二是可以看到同义词之间的互释情况。从上面的数据可以看到,这三部分释词总的来说稳定性都相当高,但仍有所差异,即同义释词出现的次数愈多,表明它充当“词”的机率也就愈高。没有充当词目的大都为以下几种情况:1)释词归入了单字头:如荸荠、鏰子、鲅鱼、鲳鱼、柚子、蟋蟀、嗫嚅、蜣螂、猞猁等;2)明显是词组的:被骗、办完、奔向、变胖、变瘦、别想、别动、含有、冲出、出声、云里、搓澡、打死、摘取、摘去;3)构词词素浅显的:纯金、高楼、公马、公鸡、公驴、公牛、鸡蛋、活猪等。
2.词语常用度的调查。
这项调查使用的材料是《现代汉语频率词典》中的8458条常用词。这部词典对词语的切分与常用性的认定,带有中文信息处理的性质,[④]但由于它调查语料量适中,统计方法科学,所得出的数据仍有着相当的可信度。本调查可以观察到充当释词的机率高低与使用频率高低之间的关系。通过统计数字的对比,可以清楚地看到高、中、低频的释词在《频率词典》中所占的比例有着明显的递减趋势。由64.1%到47.9%,再到28.2%,出现了三个明显的递减阶梯。
下面再看高频释词、中频释词、低频释词在《频率词典》8548条中每千条的分布情况,第1条是使用度排名最前的,第8548条是排名最后的。数据显示,三种释词在使用度高低不同的词中逐段分布的差异也很明显。高频释词有11%的词出现在前1000词中,而低频释词只有1.9%。这种差距直到第7500条左右才逐渐消失。这说明在《现汉》中释词使用得愈多的词语,在《频率词典》的常用词中占的比例也愈高,位置也愈靠前。二者使用的方法虽然不一样,却显示出相同的词语规律,之间起到了相互映证的作用。
3.语法属性的调查。这项调查反映释词语法属性的分布,可以观察到充当释词的机率高低在语法属性分布间有着何种联系。下面只统计位于释词一位置上双音同义释词的词性,不算重复的有3779个词,按重复算是5112词次。5112词次的词性分布如下:
这项调查还作得比较粗糙,如只统计了释词一的词性,而未能将所有释词的词性来统计,而更多的是受到语料的限制,如释词的词性模糊,有两可的现象,“【依据】根据”可作动词也可作介词,“【回佣】回扣”可作动词也可作名词;又如有的释词兼有两种词性,“【为伍】同伙;做伙伴:羞与~”;再如有的是例句词性的并有,“【支援】支援;帮助:国际~丨经济~丨~受难者”,“【祝贺】庆贺:~你们超额完成了计划丨向会议表示热烈的~”,均为名动两用。但这个初步调查还是有价值的,它清楚地显示了使用同义词释义的主要所属词类,在数量的多少上依次表现为“动→名→形→副→连”。
(责任编辑:admin) |
织梦二维码生成器
------分隔线----------------------------