规则与统计相结合破解自然语言处理难题 如何才能让计算机像人类一样使用语言文字?杭州师范大学钱江学者讲座教授冯志伟研究自然语言处理已50多年,他表示,“为了使现实的自然语言成为可以由计算机直接处理的对象,我们都需要建立语言的‘形式模型’,使之能以一定的数学形式,严密而规整地表示出来,建立自然语言的‘计算模型’,使之能够在计算机上实现。” 李爱军告诉记者,完成自然语言处理要克服一系列难题,比如单语分析任务中语言的歧义性,远距离相关性,动态性,随意性以及多语任务中的语序差异性,语义集合的差异性,表达习惯差异性等。 就汉语而言,在歧义性方面,汉语的词形变化较少,语义的确定更多地依赖上下文及场景关系;而在随意性方面,汉语的语法结构更为灵活多变。“由于汉语的语言特征,学界在中文自然语言处理中面临更多难题。”多年来从事汉语自然语言处理的盛玉麒对此深有体会,汉语的自动分词、词性标注、规则提取、规则描写、歧义消解等方面是中文自然语言处理重要瓶颈。 基于这些难题,自然语言处理的研究历经从基于规则到基于统计、进而规则与统计相结合的发展过程。“早期为了配合基于规则的方法而建设的大量知识库为自然语言处理研究打下了很好的基础。但基于规则的方法难以覆盖大量的变体和适应快速的变化,由此兴起了基于统计方法的语言建模。”李爱军告诉记者。 盛玉麒强调说,基于规则与基于统计相结合的路线,成为自然语言处理领域的共识。 (责任编辑:admin) |