计算机和语言的不解之缘 与此同时,有一些杰出的学者学开始从计算机和通信的角度来关注语言问题,取得了突破性的成就。 英国科学家图灵在1950年发表的《机器能思维吗》一文中天才地预见到计算机和自然语言将会结下不解之缘。他提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语。 20世纪50年代提出的自动机理论来源于图灵在1936年提出的算法计算模型,这种模型被认为是现代计算机科学的基础。图灵的工作首先导致了麦克罗克–皮特的神经元理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,图灵的工作导致了有限自动机和正则表达式的研究,这些研究都与语言的形式化描述有密切关系,把数学与语言紧密地联系起来。 1948年,美国科学家香农把离散马尔可夫过程的概率模型用来描述语言的自动机。1956年,语言学家乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,首先用有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。乔姆斯基在研究自然语言的时候首先提出了上下文无关语法,计算机科学家巴库斯和瑙尔等在描述ALGOL程序语言的工作中,分别于1959年和1960年独立地提出了巴库斯–瑙尔范式,并发现他们提出的这种范式与乔姆斯基的上下文无关语法是等价的。这些研究把数学、计算机科学与语言学巧妙地结合起来,大大地促进了学者们采用数学方法来揭示语言的数学面貌。 这个时期的另外一项基础研究工作是用于语音和语言处理的概率算法的研制。香农把使用通信信道或声学语音这样的媒介传输语言行为比喻为噪声信道或者解码。他还借用热力学的术语“熵”作为测量信道的信息能力或者语言的信息量的一种方法。他采用手工方法来统计英语字母的概率,然后使用概率技术首次测定了英语字母的熵为4.03比特,用数学方法来描述语言的统计规律。 在这些研究的基础上,在语言学中出现了数理语言学、计量语言学等广泛采用数学方法的新兴学科。 法国数学家阿达玛是一位具有独特创见的学者,他用自己的慧眼,清楚地认识到语言学在人文科学中是最容易与数学建立联系的学科。他斩钉截铁地指出:“语言学是数学和人文科学之间的桥梁。” 显而易见,具有逻辑之美的数学确实能够帮助我们洞察语言规律,发现语言的结构之妙。 (责任编辑:admin) |