谈汉语中介语语料库的建设标准(3)
http://www.newdu.com 2024/11/24 10:11:14 《语言文字应用》2015年第 张宝林 崔希亮 参加讨论
三 建设标准的研究内容 (一) 语料库建设流程 1. 研究建设流程的重要性 研究这一问题的目标是设计一套汉语中介语语料库建设的标准流程,使任何从事这一工作的人可以沿着正确的途径,按部就班地建设语料库,而无需每建设一个语料库都从零开始,一步步地探索,甚至重复前人走过的弯路,因而能在一定程度上避免低水平重复,提高建设速度,及时地为汉语教学与研究服务。 2.标准流程 ( 1) 提出建库任务,进行总体设计 提出建库任务:明确建库的具体目标,说明要建设一个什么样的语料库,建设这样一个语料库的原因、目的和意义,解决语料库建设的必要性问题。 进行总体设计:研究怎样建设语料库,怎样实现建库的目的和意义,明确语料库的特点,决定语料库的规模、选材、结构、标注内容与方式、建设原则、使用方法等,解决语料库建设的可行性问题。 (2) 语料的收集与整理 语料是建库的基本前提,建设一个语料库首先要解决语料来源问题。 (3) 语料相关背景信息的收集与整理 语料背景信息包括两种:语料作者的背景信息,也就是学习者信息;语料自身的背景信息。 作者背景信息包括其自然情况、学习情况,考试成绩等。例如性别、国别、是否华裔、母语或第一语言; 汉语学习目的; 汉语学习的时间与地点; 各学期的期中考试成绩、期末考试成绩、平时成绩等。据悉,在全世界4000多万汉语学习者中,华裔学习者占70%(贾益民,2007),而华裔和纯粹的二语学习者的学习情况有很大差异。因此,在上述背景信息中,是否华裔具有重要意义。母语或第一语言对二语习得情况深层原因的分析具有重要价值,应予特别关注。 语料本身的信息指语料产出时的相关要求。例如语料的语体和文体;笔语语料的标题或口语语料的话题;笔语语料的字数要求和口语语料的时长要求;完成语料的时间要求;语料产出的地点(指课上、课下、考场)等。 (4) 语料的录入与校对 语料录入与转写中难免有错误与疏漏,而“底层不一致性在上层应用中会被放大几倍到几十倍”(宋柔,2010),因此必须对录入与转写的语料进行严格的校对。这是确保语料真实可用的重要环节。 (5) 制定标注规范与实施语料标注 语料标注规范主要解决标注内容与方式的问题。标注内容是标什么的问题,例如只标偏误还是也标正确的语言表现?对语料的标注是深加工还是“浅”加工?深加工的话,“深”到何种程度?标注方式是怎么标的问题,例如先标什么后标什么?人工标注还是机器自动标注?使用什么样的标注代码?这些内容也可以概括为“标注模式”问题。(参见张宝林,2013)把这些问题解决了,制定出科学、完备、明确、易行的标注规范,才能实施标注。这也是保证标注质量的一个非常重要的方面。 (责任编辑:admin) |
- 上一篇:中国少数民族语言规划百年议
- 下一篇:“语言特区”的性质与类型