2.3 “大数据”观念下语料库的语言研究 语言研究的语料库运用和大数据运用的原理是相似的:都是从一定的量体现出一定的倾向性。但是如果从大数据的观念来看,语料库语言学的研究还有很多方面的工作可以做,总的来说,是围绕“要拥有足够多的数据和足够聪明的算法”考虑。 首先是技术性的,从计算机处理技术保证语料库能拥有足够多的数据,包括极大地扩大语料库的储存容量和大力提高语料库标注的精细技术,以便能更好地输入、储存、类聚、增删、提取,使语料库能提供更广泛空间展开观察,成为语言研究的透视镜、聚焦镜、放大镜、望远镜和显微镜。这方面有赖于语言研究工作者提出要求和提出设想,在计算机专业从业人员的指导、帮助、协同下,设计和研制出大容量的涉及不同语言学科的、功率大的、技术完善的、考虑尽可能周全的语料库。 其次是要更周全地考虑语言研究的需要而设想语料库的建设,使语料库语言学所运用的“语料”可以帮助提供足够聪明的算法。迄今为止,语料库语言学所考虑的语料库全是从搜集和积累研究对象而构建起来的,也就是所积累的全是具体的语言运用的材料。这是必要的,是基底;但看来光是这样还不够。前不久,在韩国发生了一场围棋人机大战:人工智能的产品AlphaGo对战九段围棋手李世石,结果AlphaGo以四胜一负的好成绩结束战局,表明研制AlphaGo的团队对这场人机大战做了周密的充分准备。研制AlphaGo团队的工作对语料库建设的思路很有启发。作为准备工作,研制团队为AlphaGo输入了人类优秀的围棋手150,000场比赛的对局棋谱;通过分析这些比赛,使用人工“神经网络”,去学习和改进比赛中取胜的模式。所谓“神经网络”其实就是一个复杂的数学模型,这个数学模型由数以百万计的参数组成,这些参数是落子和对抗手段的组合,通过调整这些参数来改进模型的行为,程序的目标就是找到一系列获胜的落子方式。(参见http://qh.1732.com/Article/qihun/news/news/201604/13877.htm)我们知道,围棋有固定的规则。我们小时候学习下棋要背棋谱,背得越多、记得越熟,变通就越灵活、用得就越巧,因为可以触类旁通,胜算机会就越大,下完棋还要复棋。人背棋谱,无论从记忆能力、进行比较和整理的能力、运用水平等方面,都会受到人的能力的局限;而AlphaGo作为人工智能下围棋,它在固定的规则下面可以更快、更熟练、更少记忆错漏地操作,通过比较确定哪一步下子更可取,变成一个可操作的程序化机器。 这启发我们,在大数据的背景下进行语料库语言学研究,不但要有足够量大的语言材料以建立语言材料的语料库,而且应考虑建立另一类的类似语言研究“落子”策略的语料库——收入大量语言学研究论文的语料库,从中筛选出对有关研究对象所研究的问题以及相关的概念、范畴、分类、定义、论点、论据、论证方法、分析要点等重要内容,把这些内容抽象成为语言研究先-后、主-次、详-略、焦点-背景、相关-无关、条件-结果等的参数,成为语言研究步骤的“落子方式”,使语言学论文的语料库有望构成一个语言学研究的人工“神经网络”,包括AlphaGo研制团队为AlphaGo研制出的策略网络(policy network)和价值网络(value network)以及网络所使用的蒙特卡罗方法系统(Mento Calo method),以评估将要采取的落子步骤的优劣以及由此而推论未来落子的选择。我们还注意到,AlphaGo运用的一切,完全是为围棋而设计的:1997年,世界第一场人机下棋大战下的是国际象棋,IBM研制的“深蓝”(Deep Blue)击败了国际象棋世界冠军卡斯帕罗夫。那时这场胜利被广泛描述为人工智能发展的里程碑,但是结果表明,“深蓝”的策略对国际象棋有用,而对于其他没有什么意义。这也许是一种提示:算法的聪明是对一定的对象来说的。语言学科里各分支的分门别类研究特点的区别也许不会亚于国际象棋落子策略与围棋落子策略的区别。 要建立这样一个收入大量语言学研究论文的语料库,是对建设传统的语言材料的语料库思维的改进。我们在“前言”曾引用过一位哲学家的话:要让数据展现内涵,运用主体就要“拥有足够多的数据和足够聪明的算法”,这可作为建构这样的语料库的前提条件。这是大数据时代给语料库语言学研究的重要启示。语言学研究的大数据的运用向这样的方向发展,就是设计好按照预定的程序完成高难度和复杂的思维过程,使人类脑力劳动往更高级的状态发展。随着数据量的高速增长和计算机算法的发展,计算机将不仅能模拟和仿真,还能进行学习、归纳、分析、推理、总结,并且得到理论;也就是说,过去由牛顿、爱因斯坦等科学家,由索绪尔、乔姆斯基等语言学家从事的工作,部分可以由计算机来做,这开辟了语言科学研究的广阔前景。这样的研究,我们称之为语言的“e-研究”。对于语言的e-研究,我们的设想是:通过大数据的方式,在大数据语言运用材料的基础上,用网络搜索尽可能多的语言研究档案资料用作研究的提示和参考,相互比较和印证,作出扬弃,用作组织一项研究活动的参数,帮助得出研究的结论。 (责任编辑:admin) |