11月4日,清华大学计算机科学与技术系党委书记 、“蒙古语语料库”建设工程领导小组成员孙茂松教授在“蒙古语语料库”建设工程一期工程验收暨二期工程论证会上坚定地说:“‘蒙古语语料库’大规模搜集真实语言语料和限量收集珍贵文献语料,有利于国家语言资源安全,有利于民族语言资源保护,有利于民族语言文字信息化进程,有利于民族文化遗产保护。” 会上,来自区内外的11位专家对“蒙古语语料库”一期工程取得的重大成果——“蒙古语言语语料库”的建立给予高度评价,认为该成果的取得功在当代、利在千秋。 “蒙古语语料库”建设工程是2005年3月由自治区政府批准立项的内蒙古民族文化大区建设重点项目。工程分两期进行,计划用20年时间建成我国第一个2亿词级的蒙古语、达斡尔语、鄂温克语、鄂伦春语大型综合性语料库。 工程实施10年来,课题组先后在我国八省区、蒙古国四省一市、俄罗斯布里亚特共和国和卡尔梅克共和国境内共97个采访点,搜集了6725人共计4200多小时的自然口语语料和4000多小时蒙古语新闻、故事和义务教育《语文》课本等书面语料,完成150个小时的自然口语语料国际音标标注和传统蒙古文撰写工作。目前,“蒙古语语料库”一期工程已形成了由档案文件、检索界面和资源系统三部分组成的数据库雏形,可向读者提供录音设备、发音人、采集点、文件名、谈话内容、方言词汇等与声音语料相关信息。 “蒙古语语料库”二期工程预期目标是,最终建成一个2亿词级的包括8000万词言语语料库和1.2亿词文献语料库的蒙古语、达斡尔语、鄂温克语、鄂伦春语四种少数民族语言大型语料库及其数据库,并整合纳入“内蒙古民族文化建设研究数据库”。 (责任编辑:admin) |