语言学理论对自然语言处理的影响和作用(6)_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

    目前自然语言处理的一个“魔戒”是大数据，数据足够大，深度学习就可以发现其中隐藏的各种规律。但是，数据不仅要大，还要好，也就是低“噪音”的数据。然而，一般来说，“大数据”的前提就是好的数据，为什么还有不好的“大数据”呢？如果，对于自然语言处理来说，“大规模真实文本”就是所需的大数据，那么只要是数量足够大的真实文本就可以奏效了吗？问题是，多大的数量就足够，还有的问题是，何为“真实文本”。实际产生的文本是否就是“真实文本”？互联网上海量字数的文本是否就是“大数据”文本呢？据报道，百度在使用其获取的大量网络文本来训练其翻译系统的时候，还需要对这些语料进行“清洗”，要筛除其中一部分不合格的语料。为什么实际产生的语料会有不合格的语料呢？不合格的语料是否是“真实”的语料呢？
    原来，“真实”也是有相对性的。真实于“言语”，不一定真实于“语言”；真实于“网络语言”，不一定真实于整个语言生活的语言。百度认为“怎么老是你”不是“How old are you”可取的翻译，所以，尽管其在网络语料中出现多次，还不能接受为规范译文。(34)实际上，这里就有一个不自觉的语境意识。百度将其语境限制在“规范”的范围内，所以，这些不规范的译文自然不是“真实文本”了。因此，语境是无所不在的，不管你是否意识到它的存在，你总是受到它的制约。
    对于“普遍语法”来说，任何“自然语言”就是一个语境，在这个语境下，我们有了汉语语法、英语语法等。对于一种语言来说，使用这种语言的每一个不同的社区都是一个不同的语境。因此，将一个特定的语境当做一个通用语境来处理，无异于将某一种自然语言的语法等同于普遍语法。上面提到，一个言语社区的特点包括其独特的语境系统。在没有公共交通服务的社区，就没有“报站”的语境，没有这种语境经验的人就需要学习这种知识，也许一个现代人学习这种语境知识并不难，可以从类似的语境知识来类推。但是，对于一个完全没有语境意识的机器人来说恐怕就没有那么容易。尽管它装备了许多关于“北京”“站”“到”“了”的词汇语义、词汇连接、句法结构、语法语义的知识，检索这些知识及其可能的组合，需要十分复杂的运算，而其运算结果产生的多项语义中也只有一项对应“到站”的语境，而再无从选择。反过来说，如果该机器人只具备语境知识，再配备“北京站”的语音功能恐怕就可以完成任务了。
    然而，特定语境的自然语言处理是一种较低智能的处理。理想的处理是全语境的处理功能。如果我们的计算框架是针对全语境的，我们就需要给它配备言语社区整个语境系统的知识库。如果我们期望深度学习系统去发现语境模型，我们就需要为它提供相应的语境大数据。如果你的语言处理系统是针对特殊语境的，与该语境无关的语料就不是真实的语料，再大的数量也无济于事，或适得其反。如果你获得的语料只是来自部分语境而你的处理目标是全语境，其“大数据”的性质就受到质疑。“大数据”的数据不是指绝对的数量，而是相对而言。不好的数据不是大数据。大数据是对全局有代表性的数据。
    如果百度找到了它需要翻译的英文句子中全部合格的配对中文句子，那它的机器翻译系统就可以很简单，也可以达到百分之百的正确率。但是，它现在实际要翻译的句子不是一个封闭的集合，所以不可能采用上述的做法。虽然不是一个封闭的集合，但从实际的语料中我们也可以找到大量频繁出现的句子。而且，如果限定语境，由于言语社会的规范的作用，其高频率出现的文本几乎近似于一个封闭的集合。所以，直接进行配对的翻译模式，根据不同的应用需求，不仅可以词组配对、句子配对，还可以篇章配对。而且，可以建立一个语用功能配对框架，找到在言语行为、言语事件、交际功能、主题模式、文化功能等多个层次的匹配文本，从而大大提升翻译的质量和系统的工作效率。
    对于无语境语用意识的自然语言处理来说，即使它采用了亿兆字数的数据库，也不一定是正确的大数据模式。举例来说，如果我们把一个人一年内所说的话全部记录下来，进行充分的标注（包括语境标注），再采用先进的机器学习技术来建模，我们可以相当准确地预测他在相似语境中会说的话，这是一个正确的大数据模式。但是，如果用这个数据库来预测另一个人会说什么话，恐怕就会大打折扣。根据社会语言学的理论，其准确率会根据说话人的社会背景、生活经历等方面的差异第次下降，以至于可能低到接近随机的程度。那么，这另一个人往往就是属于一个不同言语社区的说话人。
    如果你依赖一个10亿字的语料库来做面对10亿人的自然语言处理，恐怕不会很成功。因为，一个人一天就可以产生几万字的语料，10亿人就已经几十万亿字，而且一个人一天也不一定经历所有可能的语境。例如，春节这天，几亿人反复说“新年快乐”，并不等于他们每天都这样说。多大的语料库可以概括多大的语言变异范围是一个实证问题，但是已有研究证明，言语社区是一个定性的界限。在一个言语社区内，有的语境需要僵化的语体、有限的句式、许多固定的话语片段，甚至固定的篇章格式。针对这些语境的自然语言处理基本可以采用受限语言的处理模式。有些语境具有社会规范性质，在面对这些语境时，自然语言处理面可以采取规范推荐模式。有些语境互动性强，有些语境客观性强，现有的不同技术都可以有针对地采用，以适应其特点。总之，自然语言处理的计算框架应该优先考虑语境区分，通用的处理需要具备语境识别功能并进入分语境的处理。 (责任编辑：admin)

搜索

热门标签:

语言学理论对自然语言处理的影响和作用(6)