三、语料分析与语言信息检索 语料入库仅仅是语料库建设的第一步。它只不过是把语言的口语形式和书面形式变成了机读形式——电子文本。只有使用计算机对入库的语料进行各种语言信息分析与处理,才能提供各种有用的参考数据和研究素材,很好地为语言研究和词典编纂工作服务。 语料分析与处理包括词频统计、索引生成、语法分析、语体分析、语义分析等项目。目前有些项目的自动化处理已经成熟,有些尚待继续发展。下面分别加以讨论。 词频统计 这是最基本的语料分析。其任务是指出每个单词在整个语料库中出现的次数是多少,并且生成词频表,作为词典收词立目的科学根据。现在有些词典还特别提供词频信息,为语言教学大纲词汇表制定者提供参考,同时为读者选择学习词汇提供便利。例如,《COBUILD英语词典》(1995年版)在词条右方用黑菱形号标示词频,黑菱形号越多,表示使用频率越高(见图1)。 图1 《朗文当代英语词典》(1995年版)则在词条边上用符号和数字表示词目在书面语和口语中的使用频率。其中“S”表示“口语”,“W”表示“书面语”,“1”“2”“3 ”表示有关词项分别属于“1000”“2000”“3000”高频词(见图2)。 图2 (责任编辑:admin) |