语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 词典学 >

语料库建设与词典编纂(4)


    二、语料采样与语料库分类 
    语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。但如果要继续扩大语料库规模,并且要求检索速度足够快,普通电脑设备就不能胜任。在现阶段,就普通电脑的处理能力而言,语料库的规模以1~2亿单词为宜。如果规模再大,运行速度就会过于缓慢。 
    然而,要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。首先应当对语言材料进行系统的分类,例如划分出书面语和口语,普通语言与专业语言,标准语与地域变体(包括方言),成人语言与儿童语言,早期语言和当代语言等类别;然后根据各类语料在语言中所占的大体比重,确定合理的采样比例。例如: 
    口语 以往的语言研究大多局限于书面材料,忽视口语材料。如果研究古代语言,没有声音材料可供参考,只能根据古代文献,这是情有可原的。如果研究现当代语言,撇开口语,只使用书面语材料,那就不妥,因为就语言的本质而言,口语是第一性的,书面语是第二性的。“国际英语语料库”、“英语语料库”和“英国国家语料库”都有计划地采集了一定数量的口语语料(录音材料),并转写入库。例如,英国国家语料库的口语语料多达1000万单词。此外,口语材料的选择以各种场合的会话或口语交流为宜。电影脚本、话剧台词等“准口语”(quasi-speech)材料属于刻意思考出来的语言(“considered”language),是根据人为设置的场景编造的语言,在通用型语料库中使用价值不大。(注:Sinclair J M.(ed.).Corpus,Concordance,Collocation.Oxford:Oxford University Press,1991.) 
    书面语 这类语言材料包括各种各样的文本,如信函类、调查报告类、指南类、论说类、叙述类(包括游记、传记等)、幽默类、小说类(包括普通小说、历史小说、恐怖小说、校园小说、科幻小说等)、报刊类、宣传品类,等等。各种题材的书面语语料比例要注意平衡。为了再现语言使用的一般状况,要注意选用普通作家的作品。对那些走火入魔的“天才作家”或喜欢标新立异的记者的文章要慎收。  (责任编辑:admin)