语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 语言学 > 方言学 >

聚类分析在汉语方言研究中的运用(3)

http://www.newdu.com 2017-11-16 《语文研究》2015年第4期 项梦冰 参加讨论

    2.2 古宕摄合口三等非组字今读的韵母特征相似性矩阵。特征矩阵建好后用NTSYS的相似性(Similarity)模块中的定性数据(qualitative data)即可计算出其相似性矩阵(本文不加说明时一律采用SM系数,即简单匹配系数[Simple  Matching Coefficient]),以北京、长沙、厦门、梅县为例: 
    
    得到相似性矩阵后,就可以用NTSYS聚类(C-lustering)模块中的SAHN(Sequential、Agglomerative、Hierarchical  and  Nested  Clustering  Methods,时序、集群、层次和嵌套聚类方法)进行聚类计算,求出聚类树矩阵。本文采用UPGMA(unweighted pair-group  method  with  arithmetic  means,非加权组平均联接法)进行计算。得到的结果文件用NTSYS制图(Graphics)模块中的树图(Tree  plot)进行计算即可得到如图2所示的聚类树图。 
    
    为了检验上述聚类分析结果的好坏,还需要进行比较分析。即首先用  NTSYS  聚类(Clustering)模块中的系数值(cophenetic values)求出聚类树矩阵的同象值,然后再用制图(Graphics)模块中的矩阵比较图(Matrix comparison plot)导入相似性矩阵文件和同象值文件并加以比较计算。本文略去比较图,仅列出矩阵相关性系数如下: 
    
    矩阵相关性系数的值越大,说明聚类树矩阵对相似性矩阵的偏离度越小,即失真度越小。 
    2.3 古宕摄合口三等非组字今读的韵母特征的聚类树分析。图2的聚类结果并不复杂,共两个大组,梅县为一个大组(A组),其他19个方言为一个大组(B组);B组又下分为两个小组,厦门为一个小组(B1组),其他18个方言为一个小组(B2组);B2小组再下分为两个小小组,北京、济南、西安、太原、成都为一个小小组(B2a组),武汉等其他13个方言为一个小小组(B2b组) 
    B2a、B2b两个小小组内的方言相似度值均为1,即没有差异;B2a、B2b的相似度值约为0.95,差别是“芒”是否来自武方切。B1、B2两个小组的相似度值约为0.935,主要差别是是否用“铓”。A、B两个大组的相似度值约为0.67,主要差别是“放、房、缚、莣、网、忘”的韵母是否读-i-。 
    显而易见,聚类树主要是建立在数量关系之上的,因此聚类分析的结果并不能作为分类的唯一方案。如果由手工来对表1进行分类,实际上有两个方案。一个方案跟图2相同,立足于定量分析,而另一个方案则立足于定性分析,即按照有无-i-的读法,首先把厦门、梅县分在一个大组里,然后再下分厦门、梅县两个小组;其他方言为一个大组,再下分北京等和成都等两个小组。当然就表1而言,把厦门、梅县分在一个大组里的做法并不可取。厦门虽然有1的表现,可是“铓”字在厦门和梅县不能对齐,在闽语内部也缺乏普遍性,因此忽略这种偶发特征、不把厦门跟梅县联系在一起大致是合理的。 
    B组下的3个小组相似度均在0.93以上,属于高度接近,因此对其分组其实并无太大意义。现在的问题是:A、B两个大组的相似度达到了0.67,分组是否有意义?回答显然应当是肯定的。首先,A、B两个大组的相似度值(0.67)和B组下3个小组的相似度值(0.935)之间存在着显著的落差(0.265);其次,造成A、B两个大组的相似度值较大的原因是存在着11个梅县和其他19个方言取值都为0的字,即“方、坊、芳、妨、防、仿~效、纺、仿相似、访、亡、望”,这些字约占古宕摄合口三等非组字总字数的58%。如果排除这11个没有差异的字,结果会很不相同。情况如图3所示(Matrix  correlation:r=0.99388)。  (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论