语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 词典学 >

汉语词汇定量研究的运用及其特点——兼谈《语言学方法论》的定量研究观(2)


    定量研究的方法,对词汇研究有其特别的便利之处。因为词汇的独立性比较强,形式化工作做起来比较容易,定量的结果有形可感,容易为人们所接受。因此,不断有学者特别呼吁加强词汇的定量研究。“如果不作定量分析,就很难把握住汉语诸要素在各历史时期的性质及其数量界限。我们的断代描写和历时研究也必然要陷在朦胧模糊的印象之中。从随意引证到定量、分析,是古汉语研究为走向科学化而迈出的重要一步”。[11] “定量方法对研究共时的语言现象意义重大,对研究历时的语言现象也同样重要。我们若能在频率、频度的基础上进一步展现某种历时现象的频度链,那么对揭示这种现象发生、发展和消亡的历史层次就有重大的意义。……运用定量方法来研究古文字资料的语法,在学者中已偶有所见,而在词汇方面,这种方法尚未引起重视,还有待提倡和推广。其实,在存疑的词汇问题中,有些只要采用定量方法,本来是不难解决的。”[12]
    3,  以词量为定量研究的主要内容。
    现有的词汇定量研究,涉及到的内容已相当广泛,有词语单位、词语结构、词义的产生与消失、词义义项的数量、词语的来源、同义词、反义词等等。这里的定量研究主要表现为词量的研究。词量指的就是词语在结构、单位、分布、使用等静态和动态中表现出来的数量、频率、范围的多少、高低、广狭,如词语数的量、构词能力的量、使用高低的量、结构方式多与少的量、语境语体的分布量等。词量的研究在词汇研究中具有重要作用。语言的种种重要性质和特点,都会通过“量”上的高频、高见反映出来。愈是重要的、常见的词汇现象,愈是会有较多的“量”来体现它。但应该看到,当前对词量的反映仍较多地停留在一次性的直观统计,较少进行多层面、多角度的数的分析,也很少使用复杂的数学公式来进行数值之间相关度、聚类分析等的分析。
    4,  由手工统计向语料库使用过渡。
    当前以词量为主要内容的定量研究,在大多数学者那里还主要是靠手工摘记卡片的方式来进行。这与研究者们的知识背景及掌握工具与手段的能力是密切关系的。许多人还不具备良好的数学知识,对统计学的方法和原理还相当陌生。王力先生晚年曾感叹过的两个遗憾之一就是没掌握好数学这一工具。这是一个时代的感叹,它在过去的几代人中有着相当的代表性。随着时代的演化,研究者们知识结构的改变,特别是电脑的普及,现在依靠语料库和统计软件来完成的词汇研究已经逐渐出现。如《九十年代汉语词汇地域分布的定量研究》就在六百万字的汉语词语库的基础上,通过流通量与分布率的定量分析,论述了大陆、台湾、香港三地词汇使用的同异程度。[13]目前汉语词汇研究中运用统计学定量研究,开展得较好的是在方言词汇研究领域和语料库领域。
    在方言学领域,已有不少论文运用统计学上的相关系数方法来分析方言词汇或方言语音,以达到了解方言分区之间亲疏关系的目的。尽管它们所用的方法不尽相同,有的还停留在对方法本身的摸索、改进层面,但相比于其它领域的词汇定量研究,已经领先了一大步,显示出了统计学方法在语言研究中的广泛应用前景。
    在专题语料库领域,据朱小健先生的统计,在大陆建成的专书或封闭的专题语料库已有近10个。[14]笔者近两年来建设的“《现代汉语词典》数据库”,把这部有相当权威性、规范性的语文词典作为现代汉语词汇总貌的一个缩影来进行计量分析,已完成了10余个专题的研究,对词汇学和词典学上的一系列问题进行了定量的分析研究。[①]建立封闭性的专题词汇语料库,小至某个专题、某本专书,大至某个断代,对于深化词汇研究,提高词汇研究的准确性和系统性,都是极有意义。这项工作已开始吸引了愈来愈多的词汇研究者投身其中,最近已有人在着手建设近代汉语的断代词汇语料库。[②]
    语料库领域的词汇计量研究,除了来自汉语词汇学界的外,还有一股力量特别值得注意,就是来自中文信息处理界的研究者,他们在进行汉语的自然语言处理时,一般都建有千万、亿万字规模的大型语料库。前者重在对封闭语料计量后的精加工,多深入到词义内在规律的探讨,后者则重在对海量词汇的词形研究,他们对数据库的高效率利用,往往能对词汇形式与结构各个方面的量作出很精确周全的分析。这股力量还未引起汉语词汇界的足够重视,相信一旦与汉语词汇研究界结合起来,将大大有助于汉语词汇理论研究的深入发展。
    定量方法在汉语词汇研究中已显示出极强的生命力,必将对由来已久的定性式研究产生巨大的震动和推进,彻底改变以往那种凭作者语感,靠对语料摘取式的主观色彩浓厚的作法。它具有自己的鲜明特点:肯定受到西方语言学定量方法的影响,但更多的是对自身研究传统中数量观念的继承与提升;词汇定量主要靠的是算术统计法,反映的多属数值与比率的直观关系,使用复杂的数学计算还不多,推理、间接的数值关系探讨也很少;针对汉语史中词汇问题研究的多,关于现代词汇的少;面向专书词汇的多,面向断代词汇整体面貌的少,面向辞典词汇的更少;选取容易封闭的书面语多,选取开放性的口语少。这就是汉语词汇定量研究的现状。
    当前进行的这种汉语词汇定量研究,与外语学界的应用语言学研究中习惯使用的实验、实证、系数、加权的统计学定量研究,有着很大的不同。
    二、汉语词汇计量研究中要注意的若干问题
    围绕词量这一核心问题展开的词汇定量研究,有以下几点需要加以注意。
    1.         选材要有代表性、典型性、封闭性。
    定量研究的实质仍是通过对语料的典型取样、定量调查、深入分析,由此类推以达到认识同类语言现象本质的目的。因此,定量研究对语料的选取有着很高的要求,不同的语料在定量研究中会显示出不同的价值。如在方言近似率的定量研究中,是选取最高频的常用词,还是选取数量在几倍之多的一般词语;是以词为单位,还是以语素为单位,就有着完全不同的意见。[15]在大型的词汇统计中,语料选取是否科学往往决定成败。这也就是《汉字频率表》之所以能在同类字表中做到后来居上,可信度高的一个重要原因。[③] [16]在对现代汉语词汇进行总貌性的研究中,我们选取了《现代汉语词典》来作为建立数据库的材料,首要考虑的因素也就是它的语文性、规范性、普遍性与权威性。语料具有了代表性、典型性,才使科学结论的提出有了可靠的前提。定量研究对语料的另一个要求,就是语料的封闭性。只有封闭才能做到定量统计的穷尽、准确。建立《现代汉语词典》数据库时,发现同一个版本在不同印刷次数时,往往出现了局部的改动,或改释义,或增删词目。[④]尽管这些挖版式的改动不涉筋骨,但对定量研究还说,毕竟会时不时带来拂不去的遗憾。这使我们在建立数据库的过程中,曾一度考虑光引用“版本”的概念可能还不行,还得加上“第几次印刷”。当因种种原因语料难以做到封闭时,随机采取就失为一个好办法。笔者几年前曾手工作过《现代汉语词典》的单、复音词载义量的对比。在全书中抽取了相隔固定页码距离的16页的共480条复合词来调查,发现每个词的平均义项数是1.308个。[17]这个结果离“大多数词语是多义词”的传统说法离得太远,总让人不太踏实。现在利用数据库来统计,发现全书45606条复音词的平均载义量是1.163,与原研究结论相去不远。可知随机取样得当,同样能收到全部语料封闭调查的效果。
    2.         词汇标注的多角度与周遍性
    要对词汇的语义、语音、语法关系进行多角度、多层面的定量研究,少不了要进行词汇属性的标注。这是进行深入定量研究非常重要的一环。而这些高强度的工作量、高要求的准确性在语料库中能得到轻易地解决。通用语料库能快捷、大批量地处理语言,在统计字量、词量、句型句量上往往有其独特之功效,但功能较为单一,分析结果的附加信息少,大多数情况下还必须经过再次处理。所谓再次处理,就是首要要根据不同的研究目的进行属性标注。《现代汉语语法信息处理词典》对动词属性信息的标注就达128项。[18]这是一部为计算机信息处理用的后台词语语料库,其实它本身又是人们对语言精心研究的结果。笔者在进行“同形词”的研究中,为了全面反映《现代汉语词典》中1302个、640组同形词的语法、语音、词义之间的同异关系,进行的标注达20多种。[19]所谓周遍性就是同一种标注要覆盖所有的语料,无论是有或无,或有的不同级别,都要加以标示,这样才能使语料库处理起来更为便捷、准确。
    3.         切入语料的角度要准,理论融入定量分析的全过程。
    语料的计量分析是定量研究中非常重要的一环,甚至成为这一研究最抢眼的地方。但这只是它的外部表现,不能以为只要把语料作了量的分析就完成了所有的研究工作。语料的量化工作并不意味着自动获得研究的意义,语料不会自动显示内在的价值。它只是理论研究的一种工具。定量研究中的语料选取、语料标注、量化分析,每一个环节都要依靠理论的指导,才会使定量研究获得生命力。要克服那种只有定量,没有理论,为定量而定量,满足于统计分析过程的纯形式化研究。如同形词是词汇研究中的一个老话题,人们多从词汇规范的角度来看待它。我们在进行这一专题时,发现同形词的切分在不同的研究者手下是不同的,而这些不同的切分结果正是以不同的词汇单位表现出来的,这就引导我们思索:词与词之间的界限线如何划分?语义语音语法分别在其中起着怎样的作用?各家不同划分同形词方法的优劣如何,背后支撑的理论是什么?最后决定把研究的角度定为从把握“词”的意义范围入手。又如《现代汉语词典》(83版)有2492条词含有比喻义,使用了六种不同的训释方式。这些训释方式是否使用得当,相互之间有何联系,固然很值得词典学、释义学来研究,但更有意义的是它们反映的是什么不同性质的词义,由此把探讨的视角确定为释义方式与词义成分之间有着怎样的对应关系。从而发现《现汉》作为一部规范词典,它所反映的词义还包括了一部分富于生命力,处于形成过程,尚未定型的新词义成分。
    以上几点有的体现了定量分析中的技术要求,而更多的是对定量分析方法本身的认识。定量分析能够很好地解决语料的处理、分析,直接融入论证过程之中,直接有助于研究结论的得出,但这毕竟属于语言研究技术层面的东西。它不能代替人们对语言规律的本质认识。它只有在正确的语言理性认识的指导下才会焕发出生命力。 (责任编辑:admin)