语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 观点·对话·访谈 >

谈汉语中介语语料库的建设标准(7)

 
    2.科学性与通用性 
    科学性指语料标注要正确、准确,符合汉语字、词的相关规范,符合一般的语法规则。对同类语言现象的判断与标注,要具有一致性。 
    语料标注的科学性首先体现为“标注规范”的科学性。“标注规范”在繁简字体、异体字、新旧字形、数字用法、标点符号用法、异形词的判定方面均应以国家相应的语言文字规范为标准;在研制出汉语中介语语料库专用分词规范与词表之前,分词及词性标注应以国家标准《信息处理用现代汉语分词规范》(GB/T13715-92)、《信息处理用现代汉语词类标记规范》(GB/T20532-2006)为标准;语法系统应以学术影响大、采用范围广、具有行业标准意义的语法著作和语法大纲为主要依据,例如国家汉办组织编写的《汉语水平等级标准与语法等级大纲》(刘英林主编,1996)、《高等学校外国留学生汉语言专业教学大纲》(李杨主编,2002)、《国际汉语教学通用课程大纲》(2008)等。 
    科学性还体现为语料标注的一致性。对同一种语言现象所做的标注应该是一致的,不能前后不一,自相矛盾。 
    标注代码的前后完整,形式统一,也属于一致性的范畴。 
    语料标注的一致性问题意义十分重大。要解决这一问题,目前可以采取的办法,一是通过制定严密的标注规范、严格规范标注流程、对标注员进行严格有效的培训等方法,尽最大可能将语料标注的错误率降到最低;二是通过检测计算出标注的错误率,并在语料库的说明中明确告知用户,使用户了解依据该语料库进行的相关研究,其结论有多大的置信区间,可以在多大程度上相信这个结论。而最终的解决方案则是通过技术手段,实现人和计算机的优势互补,实现计算机自动标注。 
    我们认为,检验并说明标注错误率对语料库的使用者及其研究结论来说极为重要,“语料库的标注者应该提供相关的标注质量信息”(郑家恒等,2010:6)。但从现实情况看,尚无一个汉语中介语语料库做过这样的说明。这充分表明问题的重要性和紧迫性。建设标准不仅要关注此问题,将其列为条款,而且应予特别强调。 
    通用性指语料标注代码应符合标准化与通用化要求,使用通用代码,以便于用户使用,也有利于语料的资源共享。为此目的,学界应积极开展协作研究,尽快研制出能为学界普遍接受并乐于使用的语料标注规范与代码,从而实现语料标注的标准化与通用化。 
    国内外母语语料库建设大多采用可扩展的置标语言(XML)进行编码,对语料的文本信息进行标注。在汉语中介语语料库的建设中,也已有人开始研究利用XML进行编码,对语料进行标注,例如李斌(2007)、林君峰(2014)。从理论上说,XML具有最广泛的通用性,最适合通用代码的开发,应深入研究并尽快应用于汉语中介语语料库的语料标注。 (责任编辑:admin)