计算语言学的超学科研究(6)
http://www.newdu.com 2024/11/24 02:11:31 《现代外语》2015年第38卷 李颖 冯志伟 参加讨论
5.计算语言学超学科研究中基于规则的方法和基于统计的方法 现代学科的研究对象大都是以周围环境为背景的复杂系统,任何一门学科的发展都需要从其他学科的理论、技术上获取发展的动力。多学科间相互渗透的研究方法使知识的集合方式由单一性走向多维非线性融合,形成立体网络的学科发展格局。计算语言学的发展过程中不断地融入了其他学科的研究方法,为其创造了与时代相符合的发展动力。Giri曾做过这样的描述:“超学科性需要具备非常高超的能力,真正植入原有的学科,就像我们现在站在地面上,跨越学科的界限并不是将这片地面割除,而是扩大我们的视野”(Giri 2002:108)。也就是说,超学科要求将知识的建构和传播纳入整体研究,提出了创新性和灵活性的要求。 计算语言学最初的形式模型大致可以分为7种(冯志伟 2009):基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型等。这些形式模型基本上都是使用数学或计算机科学的方法对语言学规则建模的结果,它们融合了不同学科的知识和技术,其突出特点在于这些形式模型都是基于规则的,十分重视语言学规则在形式模型构建中的作用。这是计算语言学在学科融合后的重要成果,不仅推动了计算语言学理论研究的进步,还开发出一些应用系统,在某些受限“子语言”的应用系统中获得一定程度的成功。 但是,那些应用系统的覆盖面仍然很有限,很难用于处理大规模的真实文本。因为从自然语言系统所需要配置的语言知识来看,大规模真实文本须处理的数量浩大,颗粒度精细,以往任何系统都远不能及;同时,随着系统拥有的知识在数量上和质量上产生巨大变化,在系统的操作、处理和表示等基本问题上都出现了困境。就在这些基于规则的研究人员试图探索新途径的时候,统计学专业和电子学专业所使用的贝叶斯方法(Bayesian method)使文字识别、语音识别和语音合成研究取得了很大的成功。统计方法在这些领域发挥了重要的作用,很快把研究成果提高到实用的水平。受到启发后的计算语言学家也开始采用统计方法来进行研究,其突出特点在于这些形式模型都是基于统计的。由此,计算语言学的超学科研究开始借助文字识别和语音技术中的统计方法,从大规模真实文本(即语料库)中获取语言的信息,提出了大规模真实文本的自动处理问题。在计算语言学中,基于规则的超学科研究逐渐走向了基于统计的超学科研究。除了前述7种形式模型之外,又建立了一些基于统计的形式模型,语言学知识主要通过语料库采用概率和统计的计算去获取。目前,这种基于统计的超学科研究方法几乎成了计算语言学的标准方法,占据了研究的主流地位,而前述7种基于规则的形式模型则处于次要地位。 (责任编辑:admin) |
- 上一篇:彝语言语料资源数据库的设计与共享的实现
- 下一篇:汉语盲文语料库建设方案