地域变体 包括各种地区变体和重要的方言,如英语中的英国英语、美国英语、澳大利亚英语、南非英语等,汉语中的港台地区用语等。这些变体在语料采样中需要妥善考虑。 专业语言 包括社会科学、自然科学、工程技术、医疗卫生、服务行业等各方面的专门语言。其语言材料又根据专业化程度高低而有所区别。这些材料在采样时既要考虑门类分布和比例,又要考虑难易程度。 语料采样计划很大程度上取决于语料库的用途。语料库根据用途可以分为通用语料库(general corpus)和专门语料库(specialized corpus)。前者旨在反映语言的基本面貌,供编纂普通语文词典使用,各类语料的比例应当保持平衡,不能偏重某一类别。后者用于反映某个专业、年代、地域、体裁、阶层或年龄组等的语言使用情况,供编纂各种专门词典使用。 语料库还可以分为主语料库(main corpus)和辅语料库(subcorpus)。主语料库以普通语言材料为采集对象,反映共核语言(core language)的使用情况; 辅语料库则以特殊语言材料为采集对象,反映各种语言变体(language variety)的使用特点。主语料库与辅语料库联合使用,则形成大型综合性语料库;各个辅语料库加以扩充便可成为较大规模的专业语料库。 各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。其中难度最大的是口语语料入库,需要把口语录音材料逐词转录成电脑文字材料。文字语料入库,早期使用键盘录入或光学字符识别(OCR),相当费时费力。现在电子书籍很多, 囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集最新语言材料带来极大的便利。当然,在语料入库之前,必须慎重考虑版权问题。 (责任编辑:admin) |