语料库建设与词典编纂(7)
http://www.newdu.com 2024/11/23 03:11:22 《辞书研究》2002年第1期 钱厚生 参加讨论
索引生成 这也是语料分析处理的重要项目,目的在于生成很有参考价值的词项索引(concordance), 把整个语料库中含有某个单词或词组的句子集中展示出来(见图3),供词典编者选用。以前通过人工阅读采集例证,往往数量有限,遗漏甚多。现在通过电脑检索,可以做到一览无余。如果能在索引栏提供左右项排序功能,使用者就可以很方便地了解有关词语的左右搭配情况。这不仅对编纂搭配词典十分有用,而且对普通词典编写过程中概括义项、考察用法、选择例证颇有益处。 图3 语法分析 其主要任务是给语料库中的所有单词确定词性,并逐一标注。我们知道,语言中一词多性的情况相当普遍。如果能对语料库中所有的词按词性检索,就可以让词典编者节省许多筛选的精力。现在国外已经开发成功自动标注词性的软件,使用一般检索软件能够识别的标准化通用标示语言SGML(Standardised Generalised Markup Language)给语料库中的所有单词自动标注词性。虽然自动操作之后需要进行核对,但已减少了大量的人工操作。这类软件还能同时提供详细的句法组合信息,可以让所有单词按用法检索。例如,“I was happy to knowmy classmates”这个句子的词性标注方式是: I was happy to know my< PRON( poss,sing) > classmates. 该例取自国际英语语料库。英国国家语料库的语料也已进行类似的处理,只不过所设语法细类有所不同。 (责任编辑:admin) |
- 上一篇:语文辞书词义系统探略
- 下一篇:《云麓漫钞》词汇研究与《汉语大词典》词目订正