据表2,高频词的使用更为集中,覆盖率为90%时,所用的词只占总词种数的0.53%-0.68%,跟汉字的10%左右相比,比例显然是很少的; 覆盖率为99%时,所用的词只占总词种数的7.34%-8.81%,跟汉字的25%左右相比,显然也还是比较少的。这说明高频词的使用比高频字的使用更为集中。这主要是因为低频词比低频字多得多,这从词种总数比字种总数多得多(相差好几个数量级)可以看出来。然而,从字词的绝对数量来看,1万多(词)是900多(字)的10多倍(覆盖率为90%时),十几万(词)是2400(字)的六七十倍(覆盖率为99%时)。从教学角度看,1万多词可能还是一个可以接受的词汇数量(但也已经很难了),而十几万词则显然不是一个可以接受的量了。因此,高频词的使用规律可以总结为: 高频词比例(相对量)很低(覆盖率为90%时基本上在0.70%以内,覆盖率为99%时基本上在9%以内),数量(绝对量)很大(覆盖率为90%时基本上在13000左右,覆盖率为99%时基本上在180000左右)。 2.绿皮书中字与词共用独用的对比与分析 接下来我们从字与词跨年度共用、独用的角度来作对比分析。 表3数据表明,除了2005年由于总字种数较少之外,其他4年的共用字(7257个),占各年度总字种数的比例在71.12%-78.62%之间,后4年这个比例的平均值为74.92%。后4年独用字在367-823个之间,4年平均为593个,占各年度总字种数的比例居于3.96%-8.07%之间,4年平均值为6.02%。后4年部分共用字在1557-2124个之间,平均为1858个,各年度部分共用字字种数占当年总字种数的比例在16.87%-20.82%之间,4年平均值为19.05%。这说明5年共用字已经占了三分之二以上,加上部分共用字,则已经占到93%以上,有的甚至已经达到98%以上。因此可以说,5年中所有使用的汉字变化还是很小的。 (责任编辑:admin) |