关于《现代汉语词典》词汇计量研究的思考(2)
http://www.newdu.com 2024/11/27 07:11:54 华语桥 苏新春 参加讨论
二、《现汉》词汇定量研究的思路与方法 《现汉》为现代汉语词汇研究提供了一份很有价值的材料。对词汇的来源与分布、词汇成分与系统、词汇单位与结构、词义成分与色彩、词汇演化与词义诠释、常用词与非常用词、常用字与难僻字等等,对规范词典的选字与收词、立目与诠释、标音与词汇属性标注、释义内容与释义方法等等,可以说凡是与词汇和词典有关的理论与实践问题,都可以通过对这份语料的封闭、穷尽、定量的研究来作出有说服力的分析。 课题研究的基本作法是把《现汉》所有的内容都输入电脑,建立一个专题数据库。一个词语为一条记录,将词目、注音、释义、词频、结构、义类、词语来源、版本、页码等分别设立字段。字段的设立很灵活,可以根据不同的研究需要随时进行标注。为了方便对比,还将前后相隔13年的第二版与第三版同时输入,既可以透视词汇词义在历时状态的演变,也可以清楚地再现后版对前版的改进、修订,在辞典编纂学上提供非常有意义的对比材料。 《现汉》数据库内容丰富,计量研究以专题的形式进行。专题的计量研究有着下面三个基本要求: 1,语料的封闭与穷尽。进行专题研究时,对该专题范围内的语料要做到准确、封闭与穷尽。准确是必须真实地反映《现汉》的本来语言面貌,不能有讹误,把人为的差错带入语料中。封闭是使得专题研究做到纯化,不与无关的问题相搀杂。穷尽是保证语料不出现缺损、遗漏,使计量研究反映出来的频率、比例等数据真实可靠。这三点是计量研究的基础。当然,计量研究的本质是归纳研究,在使用有相当数量的语料时,个别数字的增减不会影响到语料的量与质,但作为严格的计量研究来说,数据的准确应该是计量研究的第一位要求。 2,开阔观察视野,多方设立参照点,增加对比度。有比较才有鉴别,在对比中更能凸现语料的特点。对比的角度可以多样而灵活。例如在研究《现汉》同形词词目的设立时,就将同形词之间的意义差别与多义词义项之间的差异、单义词义项之间的差异、先为同形词后为多义词,及先为多义词后来同形词等四种材料进行了对比,结果清晰显示词典出在同形词的设立中表现偏重词形差异,轻视词义关系,且贯彻不太一致的现象。[⑥] 3,理论上的深入准确阐释,揭示其内在特点与规律。 专题研究的选定本身就是在一定理论认识下的产物,但专题语料经过封闭、穷尽的调查统计出来后,并不是就等于解决了问题。选择观察语料的角度,确定分析语料的理论和方法,明确分析语料的目的,乃是词汇计量研究中至关重要的东西。否则,一堆语料放在面前将毫无生气。材料并不具有自动显示语言规律的作用,只有在理论的观照下语料才能将它的内存价值显示出来。当然,没有理论指导和明确研究,也无从发现真正有价值的语料。之所以强调这点,就是要克服以为计量研究只是材料统计的偏颇观点。计量研究只是一种手段,只是对语料的一种处理方法,重要的是通过大量、准确的计量分析来发现语言的本质属性与规律。例如,对同形词历来只把它当作词汇的书写形式来研究,在口语的研究中它还根本引不起人们的重视,因为口语中是无所谓同形不同形的,要讲的也只是同音词。到了书面语中有了文字表达形式的有无同形的问题。这个问题当然在词典编纂中词目的设立是首当其冲,但从词汇理论的高度来看,它却是关涉到词汇学中最重要的基本单位“词”的意义范围到底如何确定这一核心问题。对它的处理直接与“词”这一基本单位的确立、汉语单位的层级性、词汇系统的数量、口语中的词与书语中的词是否一致、人们对词语的认知能力都联系在一起了。 以上三点缺一不可,互为前提。没有语料的准确,计量研究将失去基础。没有多角度的对比,难以深入到语料的内部世界;没有理论上的深入挖掘,将只是材料的堆砌,计量研究将失去灵魂,语料的内在特点与规律将难以显现。 三、《现汉》词汇计量研究的理论与应用前景 《现汉》词汇计量研究有着广阔的理论与应用前景。它的主要领域在这样三大方面: 1, 对现代汉语词汇的整体情况作出全面、系统、量化的调查与说明。 由于《现汉》是以努力反映现代汉语词汇系统为目的的,因此,将《现汉》的词汇来源、结构、义类、属性、词性、色彩等问题调查清楚,也就可以说对现代汉语词汇的整体面貌就有了一个较为清晰的认识。如以83年第二版《现汉》的一些基本情况为例说些说明: 共收词目56147条,其中单字词目10540条(如再分出单音词、单音构词素,或表音汉字,则还有着另外层面上的意义),复音词目45607。 共有义项68344,两个以上义项的9996词,义项最多的达24个,平均每词1.22个义项。 复音词中双音节词35056,三音节词5703,四音节词4365,五音节词260,六音节词114(百闻不如一见),七音节27词(一朝天子一朝臣),八音节词41(一言既出驷马难追),九音节词5(司马昭之心路人皆知),十音节词2(只要功夫深铁杵磨成针),十二音节词1(只许州官放火,不许百姓点灯),固定结构33(半…半…)。 把《现汉》作为现代汉语共同语的语文类通用词汇的一个载现物,进行精心的整理爬梳,对清晰地了解现代汉语词汇的分布概貌与规律,是很有意义的。譬如汉语复音词的音节分布情况,就将最有构词能力的双音节形式一览无遗地展示了出来。这个数据与《现代汉语常用词词频词典(音序部分)[⑦]在2500万字的语料中统计出来的数字绝对数上有所不同,但所占据的比率高低却相当接近,如: 又如:历来人们都有这样的说法,现代的词语绝大多数都是多义词。可是通过调查却发现,只有一个义项的词有42829条,高达76%。全部词条平均下来每词的义项才1.22个。看来习常的看法离事实相去甚远。至于说《现汉》“全书单字复词的义项总计有几十万个”,[⑨] 有点象是信口开河了。 2,汉语词汇理论的深入研究与建构 有了这样一份现代汉语的系统、充足、自足的词汇材料,并在数据库技术上进行多角度多层面的计量分析,这时再来探讨汉语词汇的诸多理论问题,将会大大有助于拓展视野,使许多似是而非、见仁见智,或蒙胧感知、语焉不详的重点难点变得清晰明了。 如《现汉》收录的是常用的语文类词语,可是在《现代汉语频率词典》按使用度排列最常用的8548条词中却645条不见于《现汉》,即最常用的词语中有近百分之八的不见于《现汉》。这是不是《现汉》的漏收而造成的弊端呢?其实并非。“符合国家标准GB13715《信息处理现代汉语分词规范》的词或短语一般都是语法词典的收录对象。”[⑩]这一分词规范中中对“分词单位”作了这样的说明:“汉语信息处理使用的,具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组”。它最大的特点就是收有一些结合紧密、使用稳定的词组,甚至只是一种不能独立使用的语法结构。[11] 用这样的观点来看,《现代汉语频率词典》是用“机器”分出来、属于信息处理用的词典,与《现汉》有着很不相同的性质,在它里面有着许多在“人”看来难以理解的词语,如:“为的是”、“老是”、“ 较为”、“越来越”、“极为”。而《现汉》则应该算是为“人”服务的词典,它与为信息处理用的词典在词汇单位上就有着明显的区别。除了要遵照结合紧密、使用稳定的标准外,它还得考虑意义是否完整,是否具有独立使用的功能。由此再伸发开去,就不难理解,在词汇研究中对最基本单位“词”的认识与确立中,除了多义词与同音词的划界、词与词组的划界以外,还面临着一个“人”的分词与“机器”的分词如何划界的问题。[12] 再把思考的范围延伸开去,就是研究现状给人们提出了这样不容回避的问题:词汇研究需要根据不同的研究目的、功能,分出不同类型的研究范式,即为“人”服务的词汇研究与为“机”服务的词汇研究。 (责任编辑:admin) |