文章以20个汉语方言点古宕摄合口三等非组字今读的韵母材料为样品,通过若干实验讨论了聚类分析在汉语方言研究中的运用问题,指出:聚类分析只是一种倚重数量关系的分析,采用的方法不同,结果也往往有差异。聚类分析虽然可以给汉语方言研究中的分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。恰当的分类常常需要在综合考虑各种因素之后在定性和定量之间取得平衡。 作者简介: 项梦冰,北京大学中文系/中国语言学研究中心/计算语言学教育部重点实验室 相关信息: 本文为教育部人文社会科学重点研究基地重大项目“区域类型视角下的汉语方言计量性比较研究”(项目编号:2009JJD740002)成果。《语文研究》匿名审稿专家和北京大学研究生吕昉提出了很好的修改意见,谨致谢忱。不当之处概由作者负责。 一 引言 1.1 聚类分析与汉语方言研究。聚类分析(cluster analysis)是将样品或变量按照它们性质上的亲疏程度进行分类的多元统计分析方法。[13]196关于汉语方言研究中计量分析的运用和方法,已有多位学者进行过介绍、尝试或讨论,例如陆致极(1986、1987),郑锦全(1988、1994),马希文(1989),王士元和沈钟伟(1992)等。[8,9,15,16,10,12]本文拟以《汉语方音字汇》(下文简称《字汇》)所收20个方言点的17个宕摄合口三等非组字今读的韵母材料为样品,通过若干实验讨论聚类分析在汉语方言研究中的运用问题。之所以选择宕摄合口三等非组字今读的韵母,是因为它的数据量很小,又足以说明问题。必要时也使用部分人造数据。 中古宕摄合口三等非组字,高本汉拟为、。王力的拟音除浊声母改为不送气外,其他都与高本汉相同。[4,5] 《方言调查字表》共收了20个宕摄合口三等非组字,[17]即:方肪脂~、仿(倣)~效、放(非母,4字);芳妨~害、纺仿相似仿(彷)~佛、访(敷母,6字);防房、缚(奉母,3字);亡芒麦~儿、网辋车~、忘妄望(微母,7字)。 《字汇》共收了17个宕摄合口三等非组字,比《方言调查字表》少了“肪、仿~佛、辋、妄”4个字,多了“坊”1个字。“芒”字《字汇》以明母的地位(莫郎切)立字头,用脚注说明又读武方切,宕合三平阳微。《字汇》共收了以下20个地点方言:北京、济南、西安、太原、武汉、成都、合肥、扬州(官话);苏州、温州(吴语);长沙、双峰(湘语);南昌(赣语);梅县(客家话);广州、阳江(粤语);厦门、潮州、福州、建瓯(闽语)。它们大致可以代表汉语七大方言的基本面貌。 1.2 本文采用的分析软件。本文采用的聚类分析软件为美国应用生物统计有限公司(Applied Biostatistics INc.)开发的NTSYSpc2.10e(Copyright 1986-2000)。NTSYS的全称为“数值分类和多元分析系统”(Numerical Taxonomy and Multivariate Analysis System)。目前包含聚类分析功能的优秀统计软件有很多种,例如SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案)。本文选择 NTSYS 纯粹是因为它的小巧。其使用方法可参考Rohlf(1998)编写的用户指南。[22] (责任编辑:admin) |