作者介绍: 张宝林,北京语言大学语言科学院研究员,硕士,博导,主要研究语言学及应用语言学; 崔希亮,北京语言大学教授,博士,博导,主要研究语言学及应用语言学。 相关信息: 本研究得到教育部哲学社会科学研究重大课题攻关项目(批准号:12JZD018)和国家社会科学基金项目(批准号:11BYY054)的资助。 一 前 言 进入本世纪以来,汉语中介语语料库在对外汉语教学与研究中的作用日益凸显,引起了学界的广泛关注,汉语中介语语料库建设渐成高潮,“成为语料库研究中的热点”(谭晓平,2014) ,汉语中介语语料库建设正在跨入一个繁荣发展的重要时期。 另一方面,直至今天,汉语中介语语料库建设并无统一标准,不论哪一种语料库,不论是已建成的还是在建的,都是根据建设者的主观认识和研究经验进行建设,建库实践中存在很大的随意性。这种随意性表现在许多方面,例如在语料收集方面,有的语料库只收作文,有的兼收造句;有的只收作文考试答卷,有的兼收平时的写作练习;有的只有录入版语料,有的还附带原始语料;在语料和语料作者的背景信息方面,有的语料库收集的较多,有十几项,有的很少,只有几项;在语料规模方面,有的语料库有几十万字,有的则达几百万字,而以百万字左右者为多; 在语料标注方面,有的进行标注,有的未做标注;有的只经过断句、分词和词性标注等加工处理(陈小荷,1996),有的只标出错别字或部分偏误句,有的则从字、词、句、篇、标点符号等角度对全部语料中存在的偏误现象进行穷尽性标注;而对语料中正确的语言表现,除个别语料库之外,一般皆未标注;标注的方法与代码也不尽相同;语料及相关背景信息的查询与呈现方式各异,有的使用便捷,有的则不甚方便;分词和标注词性使用的是为汉语母语研究或中文信息处理服务的、为母语语料库建设设计的分词规范与词表,并不完全适合汉语中介语的实际情况;已建成的语料库除极少数向学界开放之外,大多没能实现资源共享。这些问题,使语料库在规模、功能、质量、用法等方面尚存在诸多局限,不能完全满足用户的使用需求。(张宝林,2006、2008、2010;崔希亮、张宝林,2011;张宝林、崔希亮,2013) 我们认为,建设标准是汉语中介语语料库建设经验的总结,凝聚着学界对语料库建设的理论思考,标志着语料库的建设水平,对语料库建设具有重要指导意义。它是汉语中介语语料库建设中带有全局性的重大问题,不仅关系到语料库建设本身,对基于语料库的汉语教学与相关研究也具有重大影响。当前,建设标准已成为制约汉语中介语语料库建设水平与发展的瓶颈,20余年的建库实践则提供了进行建设标准研究的坚实基础,因此,进行汉语中介语语料库建设标准研究的时机已经成熟。 基于上述认识,本文专门探讨通用型汉语中介语语料库建设标准问题,希望能引起学界的关注与讨论,逐渐形成共识,以促进语料库建设的进一步发展和建设水平的提高,为汉语教学与研究提供更好的优质资源。 (责任编辑:admin) |