目前自然语言处理的先进技术是深度学习技术,(25)开创了语义处理的新方向,取得了一些突破,但是迄今为止还没有包括语境语义的处理。深度学习需要足够数量和合乎质量的输入数据。然而,目前的输入数据,基本局限于脱离语境的语言材料数据。巧妇难为无米之炊。没有语境语义的输入数据,深度学习也不能造出语境语义的神经网络来。 目前主导自然语言处理的理论模型基本上是符号学的模型,是脱离语境的语言模型。但是,语言在社会生活中发挥作用,除了将抽象的词汇概念体现为可闻可见的话语之外,还必须同时依赖话语所出现的具体环境来确定话语的意义。例如,在高铁进入北京火车站的时候,乘客听到“北京站到了”的话语,大家不会认为是某个汽车站到了;对于来北京旅行的乘客则有列车旅行的目的地到达的意义。同样一句话,如果是在公共汽车上听到,大家不会误会是火车到站,也不会有“到北京了”的想法。 目前的语义处理,已经有复杂的词汇和短语层次的分类系统。分类系统可以帮助语义消歧。例如,词汇系统会把“北京站”和“火车”区分为不同种类的名词,一类是不会运动的,一类是会运动的。与此同时,其句法系统可以将动词“到”标注为“可以与运动主体或地点结合使用”。因此,机器听到“火车到了”,其句法系统可以确定的是,“火车”这种事物的运动停止,到达某一地点;与此不同,“北京站到了”的话语中“北京站”是不能运动的,因此运动的主体不是“北京站”;因为根据规则,“到了”如果不跟某运动主体关联,就是跟运动的终点关联;因此得出下列语义:某运动主体到达“北京站”这个地点。 这些词汇语法知识对于机器理解语言是必要的,当前的自然语言处理已经可以达到这样的水平。但是,“北京站”既可以指叫“北京站”的火车站又可以指叫“北京站”的汽车站,机器人听到“北京站到了”并不能确定是汽车到了还是火车到了。如果该机器人是一个“恰如其分”的语言机器人,它也不应该进一步推测到底是什么运动主体到达“北京站”了。因为它所处理的语言材料并没有提供相关信息,是火车还是汽车与所说的话无关。这样看来,说话的环境与话语的意义似乎并不是直接有关,至少对于处理自然语言的机器来说是这样。 我们制造一个有自然语言处理功能的机器人,是仅仅进行一项科学实验呢还是有明确的实用目的,这是回答上述问题的关键。如果是让它监听汽车或火车的报站以便帮助要去某站的乘客下车,它的功能确实不必要区分是汽车还是火车,作为一个装置,把它安到地铁上也能发挥同样的功能。因此,从节约成本的视角看,增加辨识说话环境的功能好像是不必要的,因为环境是已经确定了的。 同样道理,如果环境确定了就不需要再识别环境;句法结构确定了也就不需要再处理句法了。如果该语言处理功能的目的仅仅是监听报站,那它的区分运动性物体名词和非运动性物体名词的功能也是一项多余的功能。报站的模式都是确定了的,该装置只要能区分不同的站名就可以了,给它的预设是“________到了”,结构中不会出现“汽车”“火车”“马车”之类的名词,而只会出现“北京站”“天津站”“南京站”之类的名词。 上述例子说明,从应用的角度看,没有什么理由一定要从句法角度处理语义,在语境受限,功能确定的情况下,一些复杂的语法处理可能是多余的。但是,那只是针对特定语境和完成特定功能的情况。我们理想的机器人似乎应该是无所不能的。我们的多功能机器人不仅应该能听懂报站,而且应该能够区分哪些话语是报站,应该能懂得“火车到了”跟“北京到了”有什么不同,也应该懂得“火车到了”跟“客人到了”有什么不同。 “客人”和“火车”的语义区别自然包括“动物”和“非动物”,但两者都属于能够运动的事物。然而,“客人”可以乘“火车”到;而“火车”一般不能由“客人”载来,这些语义特征似乎也应该放到机器人的知识库。但是,这也是有条件的,因为“火车”不仅可以指载客人来的火车,还可以指“客人”随身带来的玩具火车。这样一来,似乎“客人”确实把“火车”载来了。那么,知识库又要进一步复杂了,什么条件下“火车载人”,什么条件下“人载火车”,等等。这些恐怕都是我们所说的“百科知识”,语言的使用似乎离不开“百科知识”的运用。(26)目前我们确实也看到有人工智能专家企图给机器人装备这些知识。(27) 尽管理论上我们可以给机器人装备人类所具有的所有智能,甚至包括超越人类能力的高智能;但是目前似乎还不必要这样做。(28)首先我们还需要搞清楚我们是否需要机器人全面取代人类。如果这不是人工智能的发展目标,那么有限功能的机器人是否就是当前的主要工作目标?有限功能应该也包括有限的语言功能。全面替代人类的自然语言处理功能似乎不应该是应用性的目标。 当前具有实用价值的机载语言功能应该是以辅助人工、降低劳动强度、提升劳动生产率为目标的。实际上市场上已有的许多设备已经初步达到了上述要求。例如,机器翻译,尽管仍然存在很多问题,已经成为我们的帮手。当然,仍然需要改进现有的设备,问题是如何改进。 (责任编辑:admin) |