语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 词典学 >

常用双音释词词量及提取方法——对《现汉》双音同义释词的量化分析

常用双音释词词量及提取方法
——对《现汉》双音同义释词的量化分析
(刊《语言教学与研究》2003年第6期)
苏新春   孙茂松
    一种语言中最重要的词语有多少,是认知科学、语义学、词典学中的重要命题。本文提取出《现代汉语词典》中单义的双音释词6010例,根据频次与释词位置进行加权,再用同释词、转释词、同素词三种方法来进行系联,提取出了502条常用释词。发现释词频率高,释词位置靠前的一般都具有通用性强、词义覆盖面广、语义位置重要的特点。
    关键词:同义词  释义语言   词频    《现代汉语词典》
    一、同义释词的范围与选择标准
    汉语语义系统中的核心词语有哪些,这是当前汉语词汇学界、语义学界,也是中文信息处理界非常关注的一个问题。大家给予的定名有所不同,有“义原”说,[①]“定义原语”说,[②]“元语言”说。[③]诸说各有所重,但对所探讨对象的基本语义特征却大体相同,就是它们都处在语义系统的核心位置,义域范围大,覆盖面广,幅射其他词语的力量强等。拥有了这样一套词语,也就具有了对整个语言的解释力,就能够涵盖这一语言的所有词语。本文使用了“释义语言”的术语,不仅因为它利用的材料来自于词典释义,还因为它希望能用这套有限的词语来达到完整释义的目的。《现汉》是当代最有影响的一部语文词典,它对词语的精确释义长期以来受到人们的推崇,而且它的释义是在非自觉地使用有限释义语言的习惯下形成的,因此用它来作为本研究的材料就更显其价值。
    为了在一开始就使这一探索性的工作更清晰些,我们先撇开词典中所有定义、说明式的释义,只探讨同义词对释的现象,并只限于双音单义词的同义词对释,以便更好地发现它们的语义特征与语义关系。《现代汉语词典》对同义词对释的运用有较严整的表述形式,如:[1]
    【按脉】诊脉。(按:无例句)
    【黯淡】暗淡:色彩~。(按:释义与例句之间用分号“:”隔开)
    【弁言】〈书〉序言;序文。(按:标示了<方>、<书>、(~儿)等词义特征)
    【充塞】塞满;填满:库房里~着杂乱物品。(按:有两个释词,之间用分号“;”隔开)
    以上是同义词对释的基本形式。有的是多种形式的交杂使用,但只要具备了以上特点的都在本文的统计范围之列,如:
    【熬心】<方>心里不舒畅;烦闷。(按:两个释义单位中只有一个双音释词)
    【充斥】充满;塞满(含厌恶意):不能让低质量的商品~市场。(按:第二个双音释词使用了括号补充释义)
    【奉达】敬辞,告诉;表达(多用于书信):特此~。(按:前面有词语属性的说明)
    【风帆】船帆◇鼓起生活的~。(按:比喻性例句)
    本文对同义释词的界定为:它是一个具有较明确独立性的双音同义词释义单位。《现汉》中的双音同义释词在不同语境中,有着不同的诠释价值,与被释词的词义亲疏关系也不一样。“外圆黑底阿拉伯数字”表示的是义项,义项与义项之间有着较明显的差异性,各自独立地存在;用“,”表示这几个释词解释的是同一个义项,它们之间的联系相当近,合起来成为一个释义单位,共同来说明被释词;用“;”表示这几个释词解释的也是同一个义项,但之间有着较明显的独立性,是分别、依次地说明被释词。第一种和第二种都不在本文的论述范围。本文分析的对象是《现汉》中的单义词,并有较明显独立性的双音释词。
    我们先用SQL语言对《现汉》数据库进行条件设定,把所有符合以上释义特征的词语从数据库中调出,再进行人工干预,把“【口子1】量词,指人:你们家有几~”、“【绝早】极早:~动身”这样自由词组式的双音结构剔除在外,得出同义释义例6010条。《现汉》全书双音节词目39800余条,单一义项的31500余条,同义释词例约占20%。
    二、同义释词的统计与分析
    《现汉》对一个单义词使用的释义单位最多有4个,如:
    【便当】方便;顺手;简单;容易:这里乘车很~丨东西不多,收拾起来很~。
    这里使用了“方便”“顺手”“简单”“容易”4个释义单位。本文把第1个释义单位称之为“释词一”,其余依次为“释词二”、“释词三”、“释词四”。6010个例词中所有四个释词位置的双音词语加起来一共是7270个(次),不重复的词语是4953个。
    处在不同位置的释词,它们在构成词语之间的同义关系时所起的作用是不同的。位于释词一位置上的显然要比位于后面的词语重要。愈是位于前面的词语,它们与被释词愈贴近,同义程度愈高。因此,在统计同义词的亲疏关系时,我们对不同释义位置的同义词采取了加权的方法,以便它们的词义关系能以适当的形式显示出来。加权为递减法,即只有一个释词的与位于释词一的均为4分,释词二为3分,释词三为2分,释词四为1分。这样把每一个释词处在不同位置上的得分相加,就得出了这个词语的权数。
    例如“聚集”,它位于释词一出现了9次,位于释词二出现了3次,这样它的得分就是4×9+3×3 = 45分。“如果”位于释词一出现了8次,位于释词二出现了1次,它的得分就是4×8+3×1 = 35分。
    4953条同义释词的平均分值为5.42。得分的数段分布如下:
    示意图表明,得分最集中的在3至4分。4分的达2537,占到一半略多,其次是3分,为1028例,再加上1-2分的19例,合起来共有3584,占总数的73%。它们基本上属于释词一或释词二,且只释词一次。这样低份值、低频率使用的释词对说明同义词之间的类聚关系价值不太大。而5至8的得分,显示它们充当释词的次数基本上在2次。这样的词共有867个词,占总数的17%。值得注意的当然是释词出现次数多、分值高的词语,以9分(包括9分)来划界的话,在这个范围的词语有502条,占总数的10%,它们充当释词的次数起码在3次以上。这三部分词语可依次称为“释义低频词”“释义中频词”“释义高频词”,图示如下:
(责任编辑:admin)