从方言学的角度看,图5的分组显然最为可取,可是图6和图7的分组态势都跟图5不同。图5的分组依据是梅县和厦门等4个方言都具有明显的1的表现,属于定性分析。图9虽然强调了梅县和厦门等4个方言的一致性,可是又忽略了两者辖字完全不同的重要差异。可以说,聚类分析虽然包含了定性分析的因素在内,但倚重的是数量关系,其结果既非唯一的分类方案,而且有时也不一定是最优方案(对表1来说,图2是最优方案;对表3来说,图6、图7、图9都不是最优方案,手工分类的图5才是最优方案)。恰当的分类常常需要在综合考虑各种因素(如2.3提到的能否对齐、使用是否普遍等)之后在定性和定量之间取得平衡。 四 结论 傅斯年(1928)指出:“凡一种学问能扩充他作研究时应用的工具的,则进步,不能的,退步。”[3]汉语方言学搭上计算机技术发展的顺风车,把聚类分析作为自己的工具,是完全必要的,也是完全可能的,因为各种统计软件的设计越来越人性化,非常利于普及。不过,对于新工具的效能和局限也要保持清醒的认识,不可产生崇拜和迷信心理。如果以为有了聚类分析手段,方言研究中的一切分类问题就迎刃而解了,恐怕多少有些不切实际。 本文所做的聚类分析实验表明,聚类分析是一种倚重数量关系的分析,采用的方法不同,结果也往往有差异。聚类分析可以给分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。Marriott(1974)曾指出:“如果(聚类)结果与公认的看法(informed opinion)并不一致,请勿认可简单的逻辑解释,也不要在图形表达中无保留地照单全收,因为它们很可能是错的。数值方法并非万验灵丹,让它失效的原因有很多。聚类分析只是数据解释的一个有用帮手,而非能将大量数字自动转换成一组组科学事实的机器。”[21]89张文彤等(2002)对聚类分析结果的专业意义也有中肯的意见:“统计学结论不是最终结论,一定要结合专业知识进行分析,聚类分析尤其如此。使用不同的聚类方法可能得(到)的结果相差很大,单纯从统计学角度是难以判断哪个结果是正确的。”[14]171 本文有意采用小数据来进行实验,目的在于方便观察聚类分析的特点以及聚类结果的优劣。从本文的实验看,在小数据面前,聚类分析的优势可以说并不明显。可是不要忘了,它可以对复杂的大数据进行高速、准确的处理,这一点绝非人脑之长。善用聚类分析手段无疑可使方言研究中基于大数据的分类工作变得容易起来。同时还可以看到,对于小数据,人们在操作聚类分析软件时,比较容易根据自己对数据的初步把握,通过不同方法或度量标准的反复测试而最终选定其合用者,而一旦碰到复杂的大数据,有时恐怕难免要靠“撞大运”。 最后以马希文(1989)的一段话作为本文的结束语:“数理统计方法所做出的分析总是带有随机性的,不能把它和理论的、逻辑的分析同样看待。在理论研究的预备阶段,统计方法可以用来整理数据,以求发现规律性的东西。在理论研究暂时做不到定量化的阶段,统计方法可以用来做为理论研究的补充。好的、合理的统计方法应该根据理论研究的成果来设计,在反复尝试中逐步确立下来。”[10] (本文参考文献请参阅《语文研究》2015年第4期) (责任编辑:admin) |