大型语料库建立计算语言学作用凸显 目前,在计算语言学方向主要开展了藏文字符、字丁、音节统计与处理研究,同时为建立民族语言语料库,攻克了自动分词与词性标注的瓶颈问题。就藏语而言,已经向国家信息化标准委员会递交了 “信息处理用藏语词类分类及标记集标准”和“信息处理用藏文分词工程规范”两项标准,已作为国家信标委在研课题进行深入研究;建立了规模为1亿字符的藏文大型语料库、50万词次的专业标注语料库、100万字符的史诗语料库等。 在比较语言学方向,开展了汉藏翻译与语言比较研究、汉蒙翻译与语言比较研究、汉维翻译与语言比较研究;同时,进行为机器翻译服务的语言描写研究、平行语料库(主要为短语对齐与句子对齐语料库)建设、少数民族语言与汉语的配价模式及对应研究等。 在理论语言学方向,主要为研究梵语语法理论、传统格语法与现代格语法的比较研究等,其中《梵语课程》教材采用从梵文翻译的语法理论及《根本颂》,对其进行注疏,自编教材,被评为省级精品课程。 计算语言学作为应用语言学的分支,研究语言及语言处理与计算相关的方面,语法形式化模型研究和各种语言综合知识库的建设是其重要的研究领域及难点所在。随着大规模语料库的建立,计算语言学显得越来越重要。在计算机上进行自然语言处理,涉及多个学术领域,计算语言学的研究与数学、语言哲学、人工智能以及认知科学关系都十分紧密。它的主要研究目标是建立语言的各个层面,即词汇、句法、语义处理的形式化模型,进而通过计算机来验证这种模型。这个研究方向在一定意义上又能支撑比较语言学与理论语言学方向,从而使少数民族语言学与应用语言学能够获得坚实的发展基础。 数字化平台建设提升自然语言处理能力 依托西北民族大学中国藏文典籍全文数字化研究所和汉语、藏语、蒙古语、维吾尔语等语言文化学院,目前将语言学与应用语言学的研究重点,放在中国藏语系《大藏经》的全文数字化及智能化检索上,为语言研究为主的各种不同学科研究搭建了一个具有国际水准和满足研究人员高端需求的数字化平台。这一平台的建成,将大大提升我国少数民族在自然语言处理、从语言角度对文献进行挖掘研究,以及藏学研究等领域的竞争实力。基于上述平台的字符、字丁、音节、词汇、句法研究,同时还要展开多语种资源库的建设和用于语言统计与检索的各种知识库研究与建设。 目前,在语言标准领域,正在推进《信息处理用藏语词类分类及标记集规范》、《信息处理用藏文分词工程规范》、《信息处理用藏语短语分类及标记规范》、《信息处理用藏文文献文本标记规范》、《信息处理用藏文排序规范》等五项标准和规范;同时,对已有的“藏语语法虚词知识库”正在加以完善,并要开展藏语语义检索知识库建设。另外,对于藏文音节数量至今没有统一结论,它分两种情况,即理论音节和表意音节,对于理论音节,我们根据计算机生成的结果为18077个。同时,我们通过建立3000万字符加25部藏文词典近37万词种的语料库进行统计,得出的藏文表意规范音节结论是9111个 (其中包括部分梵文转写的藏文音节),这是我们第一次知道藏文音节数,并且是通过语料库来完成的。通过语料库的方法统计藏文音节属于国家语言文字工作委员会标准项目之一,于2014完成并结项。尽管如此,我们将这项研究进一步深入开展,服务于语言教学和信息处理。 当然,面向信息处理和语言教学建设少数民族语言句法、语义体系,也是我们的一个重要目标,这项研究正在进行中。未来任重而道远。 (本文系教育部新世纪优秀人才支持计划(NCET-12-0665)部分成果) (作者系西北民族大学中国藏文典籍全文数字化研究所教授、硕士生导师、省级重点学科语言学与应用语言学学科带头人) (责任编辑:admin) |