关于《现代汉语词典》词汇计量研究的思考(4)
http://www.newdu.com 2024/11/23 02:11:28 华语桥 苏新春 参加讨论
四、余论 在《现汉》词汇计量研究的进行中,面对不断出现的新语料、新方法、新成果、新参数,会时时啄磨着汉语词汇研究的过去、现状与未来。跳出沉缅于其中的具体、大量、琐细又细致、缜密、严格的词汇计量研究,会深深地感到传统的汉语词汇研究走到今天,正面临着新的发展与抉择。 余论之一:“人”“机”分立的词汇研究范式 当在操作数据库语料中第一次兀然发现《现代汉语频率词典》[20] 的8548条常用词中有645条不见于《现汉》时,最初生出的感觉是后者漏收。随着分析的深入,才认识到这其实是在两种不同学术规范下,用了不同的方法和标准处理“词”的结果。简言之,《频率》是为“机”服务的,《现汉》是为“人”服务的。再回观学术界,许嘉璐先生主持的国家重大项目《信息处理用现代汉语词汇研究”已经将为“机”服务的词汇研究范式卓然于学界。[21] 再前此,也早已不只是信息处理界人士的呼吁与实践,一批传统词汇研究出身的学者亦对此拓荒多时,前如葛本仪、盛玉麒先后主持的《当代汉语流通频度词典》、《信息处理用现代汉语三万词语集》,后如葛本仪培养的卞成林博士最近出版的《工程词论》,[22] 都把为“机”服务的信息处理用汉语词汇研究作了别开生面的研究。这是汉语词汇研究发展到今天的必然。中文信息处理的崛起对传统的汉语词汇研究是一个极大的推动。传统的汉语词汇研究在服务于信息处理的同时也促使了自己的进步,旧有范式受到冲击、面临分化就成为不可避免的事了。在这个抉择过程中,为“人”服务的词汇学与词典学研究者,应该保持清醒的头脑: 首先是明确“机”与“人”是两种不同范式的词汇研究,运用的方法不同,依据的理论不同,服务的对象不同,以此框彼,大可不必。二者的差异集中体现在“词”的研究上:前者是在大规模语料中完成的,它要求词库是海量的,词语多多益善,后者讲求词量的适中与适用;前者要求词结构的稳定、凝合,后者除此之外还要求词义的完整、有着较强的独立性;前者对字形和语音的统一性要求高,而对词义内容的差异程度则较忽略,后者则重在意义的同一性或差异性,并以此来驾驭词形的分与合。这些根本性的分歧必定会影响到许多已有问题的解决,甚至会影响到问题存在的必要性。如同形同音异义词,在后者看来是一个大问题,也是一个难问题,几乎没有一本词典不谈它,也几乎没有一本能妥贴地解决好。可前者却不屑于此,它所利用的区别手段是大量的、近乎穷尽的语义搭配组合类型,以此来建立“一种歧义排除新机制”。[23] 其次是要充分利用其成果。如词汇研究与规范词典都要求面对的是常用词、通用词,也希望能根据频率来选词,这样的工作就完全可以利用信息处理用的词汇研究成果。现在词频数据的来源早已超过了百万级语料的规模,而是立足于千万级,甚至亿万级的语料规模之上获取的。对这样的统计结果,只要稍加人工干预,现代汉语通用词汇的确定将成为易为之事。又如汉字的使用频率、使用度、构词频率等也都有现成的成果,“现代汉字”的确立完全可以在频率的基础上来确立,而词典中主观成分极浓的“难字”“僻字”“古字”“生僻字”的认定,可以矣已。 余论之二:强化基于计量分析基础上的词汇理论研究意识 之所以提出这一点就是因为以往的研究中主观色彩太浓,众说纷纭的争论太繁,了无结局的问题太多。其实,许多词汇理论问题在大规模的语料计量研究中都会显得一目了然。如笔者最近发表的一篇关于同形词研究的论文是就83年版的材料而发论,[24] 其中例举了数条96年版的语例,后来又对96年版的所有语料进行了“重复项查询”,发现其中的矛盾凸现得更为清晰。如果脱离了计量分析的基础来谈这个问题,其结论很难为人信服,怕又会陷入无休止的纷争之中。又如对如何鉴别普通话中的古词语,向来难有定论,现在通过对词典中所有相关语料进行封闭的分析,从释义用词与释义方式等形式特征入手,离析词义成分,再参之以前后时代同一语料的对比,相信要确定其“古”的身份并非不可能,甚至可以细致地发现词义成分与色彩在历时状态下的蜕化嬗变过程。 余论之三:词汇学应大规模地利用词典学材料 把词汇学研究与词典学结合起来,在中国语言学历史中有着良好的传统,古代的字书词书历来也都是词汇研究的对象。当代学者中也有在这方面作出突出贡献的学者,如刘叔新先生当年的《词汇学与词典学问题研究》,就以横跨两大领域而分外醒目,符淮青、张志毅、苏宝荣等先生也都取得了大量成果。然之所以现在仍要提出这个问题,一是仍有人认为,只有研究“活”的口语才是正宗,而词典材料是死的材料。殊不知能进入词典的语言材料都是经过整理,稳定了的,并具有全民性的普遍词汇,是“语言”系统的词汇词义。要研究共时状态下的共同语的词汇系统,词典材料是不可替代的宝贵材料。二是对词典材料不应只是摘取式、例句式、个案式的利用,愈是具有抽象性的,愈是具有高度概括性的词汇理论研究,愈是需要大规模、穷尽式、以计量分析的方式来利用语料,这样才能在更扎实的基础上总结词汇规律。超千万字、集大成、穷尽式的大型辞书,如13卷的《汉语大词典》、8卷的《汉语大字典》、41卷的《现代汉语方言大词典》、5卷本的《汉语方言大词典》都已出现。它们都是从事词汇理论计量研究的极有价值的分析材料。充分利用数据库技术,大规模地利用词典材料,应成为当代词汇研究者必须具有的意识和技能。 余论之四:词典编纂对数据库的更广泛利用。 辞书界已经开始注意了数据库技术在词典编纂中的利用。以《辞书研究》上的两篇文章为例,可以看到在短短的几年中,对数据库的利用迈开了相当大的步伐。1996年对数据库还只是输入、编排、转换、检索、查询等低层次的利用,[25] 到2000年已出现了“词典编辑系统”创制与试用,表现出了迅速跟上世界词典编辑自动化、电脑化的趋势。[26] 我在这里想提出的,一是对数据库的利用不要仅停留在“编”语料的过程上,而要深入到对语料的处理如采集、统计、归类、对比、分析上。二是要使数据库的使用成为“百姓”手中的寻常之物。作为词典编纂的专业人员,应做到凡是能使用电脑的人都应学会数据库的使用,象使用word或wps那样自如。象单音语素的义项切分与同语素词族意义之间的覆盖与呼应,是编写释义中很注意的一件事,可是以前只能根据顺序或倒序来查词。而在数据库中可以根据语素查询,很轻松地穷尽包括处于词中位置的所有派生词,使同语素词成为一个全封闭的系统呈现在编写人员面前。又如词典的修订中,作了增删,也是编写过程中需时时留意的,而数据库对此也能自动进行排比对照。只有做到数据库的普及使用,才能更好地把科学、准确处理语料的精神贯彻到所有编纂人员之中。要防止词典编辑系统那样全功能的数据库软件成为工程家手中的专利产品或只限于个别大单位使用的“阳春白雪”。 2000年10月10日 于厦大白城 作者介绍:苏新春,男,(1953—),江西南昌人,厦门大学中文系教授 通讯地址:福建厦门大学白城12号301 邮编:361005 电话:0592-2184081 [①] 有关论文可见:黄景欣《试论词汇学中的几个问题》,刊《中国语文》1962年第3期。刘叔新《论词汇体系问题——一与黄景欣同志商榷》,刊《中国语文》1964年第3期。周国光《概念体系和词汇体系》,刊《安徽师大学报》1986年第1期。刘叔新《汉语描写词汇学》,商务印书馆,1990。 [②] 晁继周、单耀海、韩敬体《关于规范型词典的收词问题》,见《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996,第70、72页 [③] 李建国《〈现代汉语词典〉与词汇规范》,见《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996,第83页 [④] 梅千驹等,《同义词词林》,上海辞书出版社,1983 [⑤] 林杏光、菲白,《简明汉语义类词典》,商务印书馆,1987 [⑥] 苏新春《同形词与“词”的意义范围——析〈现代汉语词典〉的同形词词目》,《辞书研究》2000,5 [⑦] 刘源《现代汉语常用词词频词典(音序部分)》,宇航出版社,1990,6 [⑧] 刘源《现代汉语常用词词频词典(音序部分)》,宇航出版社,1990,6, [⑨] 鲍克怡《现代汉语工具书的代表作》,《〈现代汉语词典〉学术研讨会论文集》,吕叔湘等,商务印书馆,1996。第22页 [⑩] 俞士汶《现代汉语语法信息词典》,清华大学出版社、广西科学技术出版社,1998,第20页 [11] 任海波、范开泰《现代汉语真实文本短语标注的若干问题》,《语言文字应用》2000,1 [12] 苏新春、顾江萍《“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考》,刊《辞书研究》2000,5 [13] 苏新春《普通话词汇系统对方言词的吸收与更新——〈现汉〉方言词研究》,刊《语言》,总第2期,首都师范大学出版社,2001 [14] 苏新春《当代汉语变化与词义历时属性的释义原则——析〈现代汉语词典〉二、三版中的“旧词语”》,刊《中国语文》2000,2 [15] 余桂林《成语的语义特征与释义特点——〈现汉〉(第二版)四字词研究》,刊《现代汉语词汇研究》(论文集),商务印书馆,2001,12 [16] 赵翠阳《从“面”字语素词看〈现汉〉96年版的修订》,第三届现代汉语词汇学术研讨会会议论文,2000,10,厦门 [17] 韩敬体《《现代汉语词典》修订工作概述》,《辞书研究》1997,1 [18] 晁继周、单耀海、韩敬体《关于规范型词典的收词问题》,见《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996,第79页 [19] 苏新春、廖新玲《现代汉字的范围及其属性标注》,见《汉字文化》2001年,1 [20] 《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。 [21] 许嘉璐《〈信息处理用现代汉语词汇研究〉课题中期成果汇报》,《语言文字应用》2000,1 [22] 卞成林《工程词论》,山东大学出版社,2000,2 [23] 董振东《汉语知识词典及词汇内部语义描述研究》,《语言文字应用》2000,1 [24] 苏新春《同形词与“词”的意义范围——析〈现代汉语词典〉的同形词词目》,《辞书研究》2000,5 [25] 王伟《从〈现汉〉修订谈词典编纂中的应用及展望》,《辞书研究》1997,1。 [26] 陆汝占《汉语词典编纂一体化环境》(上)(下),《辞书研究》2000,2-3 (责任编辑:admin) |