3.2 考虑词频的“共用词语” 、“双区词语”和“单区词语”统计
词频是词语研究的极端重要的参量。为研究和表述方便,我们把《汉库》 的词频的分级分成下列三段,六级:
根据上述的频率表,我们再对纯语料库统计的“共用词语” 、“双区词语”和“单区词语”的词语数量做一次新的统计。得到的数据如下:
“共用词语” 、“双区词语”和“单区词语”的词语在不同频率段的数量和比例以上的统计给了我们一个全新的概念,如果把频率考虑进去的话,就不难发现,纯语料库统计的“共用词语”在自“高高频”到“高低频”的各个频率段的使用频率和比例都高于同段级的“双区词语”和“单区词语” , 尤其在高频词的段级,百分之百是共用词语” ;即使在中频词的段级(共7,539个词) ,“共用词语”的数量比例高达93.6 %,而“双区词语”和“单区词语”的比例分别为4.9 % 和1.5 %。远远高于后两者;甚至到了低频词段级的“高低频” 段级(共 3,502 个词),“共用词语”的数量也在78 % 以上。
情况仅仅只在“低低频”段级才变得相反。这样就显示出,在整个词库的词语中,就词频而言,在“高低频”以上的五个段级中(前11,173个词),三者排序都是:第一“共用词语” ,第二“单区词语” ,第三“双区词语” 。
3.3 考虑累计词频的“共用词语” 、“双区词语”和“单区词语”统计“累计词频”是词语研究的又一个重要参量。它能利用词语使用频率累计的而形成的“覆盖面”去揭示出词语使用的等级:(1)最常用词、(2)次常用词、(3)常用词、(4)通用词。
根据国家对外汉语教学领导小组办公室汉语水平考试部,综合研究了自1959年至1991年32年间国内主要的16种常用词统计资料后所制定及颁布的《汉语水平词汇与汉字等级大纲》[18] ,上述四级词语等级的划分线是:
最常用词、次常用词、常用词、通用词四级词语等级划分标准
根据《汉库》的语料统计,我们再从“覆盖面”去考察这四类词语的分级、分等情况的话会看到如下不同结果:
《汉库》词语在不同累计词频段的分布情况
以上统计显示出一个有说服力的证据:,在累计词频大于等于60 % 时,“共用词语” 的走势和“词语总量”的走势几乎完全一样。从比例来说,在累计词频(覆盖面)达到 85 % 的3,927个词里,“共用词语”的比例一直高居99%(这个数字已经囊括前表的“最常用词” 和“词常用词”的总和 — 3,039个) ;而在覆盖面达到 95 % 的13,026 个词里,“共用词语”的比例还是高居87 % (这个数字也已经远远超过前表的四类词语的总和 — 9,060个)。
它有力地显示出“共用词语”在汉语交际中是最主要最重要的部分。
(责任编辑:admin) |