语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 观点·对话·访谈 >

谈汉语中介语语料库的建设标准(4)

 
    (6) 开发人工辅助标注工具 
    语料标注是一项非常繁琐、细致的工作,标注内容越丰富,标注的层次越深,标注人员需要记忆的规范条款就越多,标注过程中也就越容易出现错误,包括代码使用不一致的现象。计算机技术人员则可以研发一些供标注使用的工具软件,把标注项目与代码一一对应起来,从而大大减轻标注人员的记忆负担,使他们可以把主要精力集中在对语料的考察、对各种语言现象的分析和对各种偏误性质的判别上。还可以用“一键OK”的方式取代标注人员添加标注代码的多道复杂程序,并确保代码的完整性。而“基于web的语料协同标注系统”则可以实现“人机互助”“人人互助”,从而大大提高标注的科学性与效率(张宝林、崔希亮,2013) 。 
    (7) 各种数据的统计与表格编制 
    语料标注完毕后,可经统计得到多种相关数据,例如总字次、总词次、不同字的数量、不同词的数量、各种短语、句类、句型、句式的总数量、偏误语言现象数量、与偏误项目相对应的正确语言表现的数量,等等。显而易见,这些数据对了解学习者的汉语使用情况具有十分重大的意义。将数据制成表格则可以方便用户使用。 
    (8) 语料库管理软件与检索系统的开发研制 
    在语言研究人员进行语料的收集与标注时,计算机设计与编程人员应进行管理软件与检索系统的开发研制工作。 
    (9) 语料库集成与上网试运行 
    在语料标注、语料库管理软件与检索系统的研发工作结束后,由计算机技术人员把语料及各种统计数据入库,整合语料库系统,并上网试运行。在此过程中,语言研究人员要与之密切配合,根据语言研究的相关需求,完善语料库的各种功能,并对语料库进行多方面测试,发现问题,及时研究并予以修正。最终使语料库顺利运行,具备完善的使用条件。 
    (10) 语料库发布与开放 
    在经过测试、语料库具备预定的各项使用功能之后,应通过多种途径,如互联网、专业刊物等,向学界发布消息,并向学界乃至社会各界开放;如果没有特别原因,应向全世界免费开放。 
    (二) 语料的收集与录入标准 
    1.语料收集标准 
    (1) 真实性与代表性 
    语料的真实性指语料必须是由学习汉语的外国人自主产出的成段表达语料。自主产出是说不论写出来的文字还是说出来的口语,都是学习者主观思考的产物,而不是抄写的或记录的别人的话; 成段表达是说不论长短,都必须是有语境的一段话,而不是造句。 
    需要特别指出的是,必须将这些原始语料放入语料库,以供用户使用与查核。因为语料的行款格式、中介汉字与标点符号的原始面貌等第一手信息只有在原始语料中才能得到最真实的体现;语料录入的质量也只有对照原始语料才能做出准确的评价。 (责任编辑:admin)