严式词源统计法与共享创新法——语言（方言）谱系分类的方法分析(3)_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

    二、词源统计法
    词源统计法（Lexicostatics）是亲属语言（方言）谱系分类的重要方法，其基本观念是“两种具有亲缘关系的语言分离的时间深度，可以通过它们继承的词的共享程度来判断”(13)。Swadesh提出在任何语言中，日常基本词汇以一个相对恒定的速率变化。当一个语言社团分裂为两个或两个以上的部分，每一个新的社团中语言的变化都以独立的方式进行时，就可以通过语言中共同保留的词汇的比率来计算分化的时间。(14)有了分化的时间，也就有了谱系分类。词源统计分析法的重要步骤是设计一个通用的基本核心词汇表。这一词表必须满足两个条件：普遍性和稳定性，即不仅要在不同语言都能得到相应的词汇，还必须在语言接触过程中不容易被借用。Swadesh最初给出了一个包含200个词的词表，(15)后来又调整为100词表。(16)我们认为可以将Swadesh 100核心词中同源词的比例作为亲属语言（方言）谱系分类的一个样本。之所以选用Swadesh 100核心词，不仅仅是因为这一词表已经成功运用于世界上的多种语言，在语言调查中具有一定的普适性，还因为我们对100核心词的衰变率和借用情况都进行了考察，(17)稳定度比较高，可以作为语言谱系分类的依据。
    首先，不同语言中100核心词的衰变率有较高的一致性。之所以要考察这一点，是因为如果100核心词的衰变率在不同语言间有很大的差异，其中同源词的保留率就很难反映同源语言分化的时间顺序，也就难以给出正确的谱系分类。关于这一问题，汉语方言和傣语方言都进行过有关的验证。徐通锵先生曾经考察了汉语方言中100核心词同源词的保留率，并与文献中所记录的汉语方言的分化年代进行了比较。结果显示汉语方言中核心同源词的保留率基本上可以反映各方言的分化顺序。(18)傣语方面的证据是对德宏傣语、西双版纳傣语以及金沙江傣语中100核心词同源词保留率的计算结果显示，傣语的分化大约是在明代。金沙江地区傣族与德宏和西双版纳不同，不信仰佛教，傣语的分化应该在佛教大规模传播之前。文献记载的小乘佛教在傣族地区的传播历史也反映佛教在傣族地区的传播始于明代。因此核心同源词保留率基本能反映金沙江傣语从原始傣语中分化出来的年代。(19)以上两项研究表明汉语方言和傣语方言中，同源词的保留率与文献反映的不同方言分化的年代基本一致，因此在不同的语言中，100核心词的衰变率基本上是一致的。
    其次，核心词一般不会在语言接触中发生借用。如果核心词很容易通过语言接触传递，依据核心词的分类结果就可能无法完全反映亲缘关系的远近。对西南官话和侗台语、藏缅语接触情况的调查表明，100核心词中出现借用的情况是相当少见的。在侗台语和藏缅语地区，西南官话很多情况下是作为各民族间的通语使用的，甚至有人放弃了自己的民族语言，以西南官话为母语。即便是在这样的语言接触环境中，100核心词仍然很少发生借用。例如，在各傣语方言中，只有元江傣语的核心词中出现了西南官话借词“杀”，而西双版纳、德宏、临沧、金沙江等地都没有在100核心词中发现西南官话借词，只是少数语素会随着文化词汇进入民族语言的，如西南官话的“一”和“二”随着“星期一、星期二”进入了民族语言，但使用非常受限，正常计数时仍使用本民族语言的固有词。
    综上所述，100核心词的衰变率基本稳定，在语言接触中的借用率也很低，基本上可以避免共享特征法中语言普遍变化和语言接触的干扰。因此，用100核心词中同源词比例更适用于同源语言的亲缘分类。至于Swadesh的200核心词在很多语言中都出现了借用的现象，因此不建议作为衡量语言（方言）亲缘关系远近的依据。目前也有学者提出新的核心词词集，但是这些核心词集尚未经过专项调查的检验，因此暂不考虑通过这些词集中同源词的比例进行同源语言的谱系分类。
    当然，Swadesh的100核心词表并不能完全解决核心词表的确定问题，即100核心词表还不是最终的方案。核心词表还需要通过田野调查进行调整。如何给出更为准确适用的核心词表，是我们正在努力的工作方向。陈保亚、李子鹤尝试提出了一种核心词自动分阶模型。该模型以Swadesh的100词表和200词表为基础，基于大规模语音对应数据库，根据借用率来计算核心词的核心程度，并且自动把借用率低的词转移到高阶词集，把借用率高的词转移到低阶词集，同时在移动过程中自动寻找参数，确定高阶核心词和低阶核心词的界限，使得高阶核心词的借用率平均值达到最小值，低阶核心词的借用率平均值达到最大值。这一模型通过计算不仅可以避免确定某个词核心程度时的主观性，而且随着大规模语音对应数据库中语言数量的增加，对应规则的完善，以及区分同源词和借词准确性的提高，还可以不断地对核心词表进行改进。(20)
    需要注意的是，通过100核心词中同源词比例来确定同源语言亲属关系远近，必须在严格建立语音对应规则并找出最早时间层面对应语素的基础上进行，这一点将在下一节中进行详细的论述。 (责任编辑：admin)

搜索

热门标签:

严式词源统计法与共享创新法——语言（方言）谱系分类的方法分析(3)