亟须汉语言文字学界的参与 基于语料库的知识挖掘、数据提取已成为智能化信息处理的领跑者,理论和技术也渐趋成熟。冯志伟表示,大规模语料库的建立为自然语言处理提供了强有力手段。 近年来,我国以多种基金项目加大对自然语言处理,特别是对少数民族语言处理的投入,开展对互联网环境中文言语信息处理重大基础理论和应用研究。李爱军介绍说,这些研究主要包括互联网环境中文言语感知与表示理论研究;面向复杂环境的多言语识别方法与关键技术等。其中,中国社会科学院语音与言语科学重点实验室承担了国家973计划“互联网环境中文言语信息处理与深度计算的基础理论和方法项目”中“互联网环境中文言语行为规律和篇章结构研究”子课题,已经成功构建互联网中文言语信息的表示体系和大规模多模态口语语篇库。 针对中文自然语言处理目前存在不尽如人意的情况,盛玉麒认为,主要原因是计算机信息处理与汉语言文字学的结合不够,汉语言文字学界对于自然语言处理的关注、参与远远不够。“计算机专家需要汉语言学研究者的配合,将语言学家的知识、方法和思路转化为自然语言处理的数据库、知识库、方法库和规则库。” (责任编辑:admin) |