自然语言理解还面临个一难题,即元语言问题,这也是哲学家和心理学家甚为关注的问题。要完成自然语言理解工作,必须要有一套语法语义规则,还要有一个庞大的词库,词库中既有被解释被描写的词(对象语言),也有用来解释和描写的词(元语言)。比如: 在这里,“人”在元语言中被定义为“动物、会语言”的对象。从理论上说,我们可以给每个对象语言中的词一个完美的元语言定义,一个词不过是一束元语言因子的集合,但是这里的实质是容易看出来的,计算机只不过在对象语言和元语言之间建立了一套对应关系。“动物、有语言”这些元语言成分本身,计算机是不能理解的,如果我们再以其他元语言来定义“动物、有语言”,我们最终会进入循环论证。这种情况己经在词典中发生了,词典中核心词的定义总会遇到直接循环和间接循环。比如《现代汉语词典》的例子: 当解释对象语言中“高”的时候,元语言中用到了“上”的概念,但在解释对象语言中“上”的时候,元语言中又用到了“高”的概念。在日常学习过程中,当我们翻阅字典时,并没有因此产生麻烦,因为我们实际不是根据词典而是依赖经验已经理解了“高、上”这样一些词的意义,但当机器翻阅词库寻找词义时,就会碰到循环解释的问题。 在自然语言理解中为解决循环解释问题,需要一套核心词做元语言,这些核心词是不需要解释的,它们是语言中最初始的概念。通过这一套核心词来定义其他普通词,计算机通过这种词库来获得普通词的语义。目前自然语言理解过程中需要做的工作是把哪些词作为核心词,完成这项工作一方面要研究核心词的性质,使核心词满足优化条件,即计算机能够用尽可能少的核心词完成庞大的词典解释工作,另一方面还需要达成协议,使各个自然语言理解研究机构采用相同的核心词集。 即使我们能够通过核心词集来完成自然语言的解释工作,但仍然可以看出人类理解语言和计算机理解语言有一个本质的区别。人类学习核心词的过程是依赖经验行为。比如“高”,成人遇到形状高的事物就用“高”这个词,于是小孩在学习过程中就获得了“高”这个词的语义。计算机能借助核心词解释非核心词,但计算机不能像人那样通过经验理解核心词。至少目前的计算机还没有这种能力。如果将来的计算机能够像人类一样通过经验获得核心词的语义,计算机的自然语言理解过程会更贴近人的语言活动过程。 自然语言理解目前在语音识别、语音合成、文字输入、信息检索方面取得了重要进展,在句子的理解和合成方面由于面临语义问题,还需要做很多努力,但通过具体研究,我们对语言的运转机制有了更深入的认识,对人的心智活动过程也有了相当深入的了解。语言是观察心智活动最重要的窗口,从这种意义上说,自然语言理解的价值不仅体现在实用上,也体现在认识论上。 (责任编辑:admin) |