话题词表就是一个多维的向量空间,对于某话题中所有的字幕片段,我们同样可以分别将其用词用语表示为特征向量,利用向量空间模型(VSM)以及夹角余弦的相似度计算方法,就可以计算所有片段的话题相似度。关于文档特征向量计算公式和夹角余弦的相似度计算公式可参见刘华(2007)。将相似度降序排列,影视片段和话题的相关度也就从高到低分级了。例如,5.1.1的两个片段,其文档特征向量(只保留特征词语)分别是:1)幸会(9.2783)、高兴(1.9771)、认识(1.664)、介绍(1.2071);2)你好(1.4089)。计算后的相似度分别是:0.4498、0.0645。 5.2 交际场景 场景对话题起到一定的制约,对交际语言有着过滤的作用。场景的定位越准确,场景负载的信息量就越集中,交际双方在使用语言和理解语言过程中所需付出的努力就越小。一般每个话题都有其最具代表性的场景,比如购物多发生在商店、商场。这时我们需要将发生在比较具有代表性场景的片段排在前面,例如:同样是求职话题下的两个片段,一个场景是在户外,一个场景是在办公室,办公室与求职这个话题的匹配度更高,应该把第二个片段排在前面。 此外,对于每个话题下的片段,我们要求涵盖的场景尽量全面,提高实用性。例如,“就餐”话题中,应该尽可能地同时包含“餐厅、饭店、家、酒吧、快餐店、咖啡厅”等不同场景中的影视片段。 5.3 相关度综合排序 用词用语的相似度计算客观可靠,同时也在一定程度上体现了片段与话题常见场景之间的对应关系(训练时,话题中的教材会话片段多出现在常见场景中),因此,用词用语的相似度计算结果将作为主要的相关度排序依据。按照用词用语的相似度将片段自动排序后,如果片段之间相似度相差不多(例如,前后几个片段之间,最大值与最小值的比值小于等于1.2),再根据片段是否对应话题的常见场景,调整片段排序。同时,尽量保证话题内的影视片段覆盖常见的场景。 六 影视片段常用度排序与分级 常用度高的语料片段实用价值高,应该先教先学;常用度和难易度也有一定的关系,越常用相对越容易,这在针对不同水平的教学上很有指导意义。 6.1 基于词汇等级大纲的影视片段常用度排序 《汉语国际教育用音节汉字词汇等级划分》中的“词汇等级划分”是汉语教学中关于词汇使用的指导性标准。其中,一级词汇2245个,二级词汇3211个,三级词汇4175个,三级附录词汇1461个,共计11092个。“词汇等级划分”实质上也是根据词汇的常用度来分级划分的,等级越低,越常用,越应该先学。一级词汇是最常用的基本词汇,构建的话题影视资源库是直接面向汉语教学用的,因此,根据“词汇等级划分”来为影视片段进行常用度分级排序是最理所当然、最直接、也是最简便的方法。具体方法如下: (一)将影视片段分词。分词时,特别需要注意词与语的区分问题(自动分词分出来的短语将会增加超纲词汇的比例),分词后,使用第6版《现代汉语词典》(商务印书馆,2012)作为词汇的确定标准,对超出《现代汉语词典》的词语,基于该词典进行二次分词。剔除不在“词汇等级划分”之中的人名、地名等专有名词(超纲的专有名词基本上不影响文句理解)。 (二)赋予一级词汇权重为1,二级词汇权重为2,三级词汇权重为3,三级附录词汇权重为4,超纲词汇权重为5。对于分词校对后的影视片段,将其词汇赋予不同权重,统计其所有词汇的平均权重。 (三)片段长度,即词语数量,也会影响常用度,我们将词语数取常用对数后(平滑其影响),与平均权重相加,即为常用度。 (责任编辑:admin) |