2.语言信息的数据与语言研究 2.1 语言研究逃脱不了大数据的“缠绕” 语言运用和语言研究同信息大数据的建立有着天然的联系,因为信息的数据有很大一部分就是用语言表达的。据一名为“互联网一天”的帖子的统计,互联网一天之中产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的帖子和跟帖达200万个,相当于《时代》杂志770年发表的文字量。另据国际数据公司(IDC)的统计,到2012年为止人类生产的所有印刷材料的数据量是200PB。(参见http://baike.so.com./doc/5340323.5575766.html)语言研究的一个重要方面,就是要研究人类是如何运用语言的;既然大数据中语言信息占了那么大的比重,那么语言研究就更逃脱不了大数据的“缠绕”。 “数据”是我们的老朋友,这一概念的产生并非始于今日。事实上,语言研究很早就跟数据联上了姻,这就是早在一个多世纪前就已有学者在做的统计语言学(statistical linguistics)以及20世纪中叶以来发展起来的语料库语言学(corpus linguistics),尽管那时数据还远谈不上“大”。 2.2 早期语言研究跟数据的联姻 2.2.1 统计语言学所面对的“数据” 早在19世纪后期就有学者用统计的方法进行语言研究。就统计的意义来说,统计运算的材料就是数据,不过那时的数据是人工搜集的,同今日所说的“大数据”相比无论从规模、结构、性质、功能、搜集和处理的方法等方面都不能同日而语。统计语言学主要用的是统计学的方法,并综合运用概率论、信息论等方法,通过搜索、整理、分析、描述数据并进行推断,以达到认识所研究对象的特点和本质,甚至预测语言运用未来可能达到的效果。它包括建立统计样本,确定参数假设检验或非参数假设检验,进行方差分析、相关分析、回归分析、文本聚类、文本分类等方法进行分析推断,并通过t分布或x分布检验,以便确定用小样本代替全体或大样本是否有显著差异。它不是用计算机科学信息科学的方法,不过它始终是根据语言运用的实际情况而搜集数据进行的研究,所以说这是语言研究跟数据早期的“联姻”。 统计语言学的研究主要包括以下几个方面: (1)计算语言单位的频率,包括语音、词汇、语法单位出现的频率和特征,用词的分布、词长分布和句长分布等,以了解作品运用语言的特点与风格,进行作家个人风格特征、一个历史时期作品风格特征和一种文体特征的研究。 (2)进行语言年代学的研究,计算某一语言存在的年代及其亲属语言从共同原始语分化出来的年代,研究语言的变化、进化、分化的情况和规律。 (3)采用信息论方法统计语言运用的熵和羡余度。语言运用的熵就是在交际过程中语言符号出现的不确定程度,不确定程度的大小与语言的熵的高低一致。语言的羡余度是指语言中超过传递最少需要量的世纪表达的信息量的比例,因为在一般情况下,人们为了保证对方能够理解,总是提供比实际需要更多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。语言运用的熵和羡余度的统计对语用学、密码学、翻译学等都有参考价值。 (4)研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。统计语言学由人工收集、整理、计算的数据同本文所说的大数据是完全不同的,研究时所依赖的理念和方法也是不同的,例如统计学希望以小样本的数据代表全体或大样本的数据,以求省时省力,这同大数据的运用是以数据的全部而不是抽样的理念是不同的。但二者还是有一点相似的:都是靠语言材料一定量的数据反映语言运用的倾向性。 2.2.2 语料库语言学所面对的数据 先前语言研究跟数据的“联姻”还表现在建立语料库进行语言研究,包括进行语言本体的研究,以及各分门别类的语用研究、翻译研究、词典编纂研究、语言教学研究、基于语言运用的人工智能研究等语料库语言研究。利用基于人的现实生活和人工智能领域中的语言使用实例而建立起语料库来进行语言研究,称为语料库语言学。“语料库”就是以语料作为信息的数据而建立起来的“仓库”,这里就有运用语料的意思。 20世纪50年代以前所建立起来的语料库,语料数据是人工收集的,用卡片记录和积存为手段,进行的是人工检索,主要是运用数理统计的处理方法。语料库数据不仅在数量、规模和代表性方面很受局限,而且检索起来也费时费力。当时据此而进行的语言研究大体也同统计语言学的研究差不多。 20世纪40年代美国研制了世界上第一部计算机。50年代之后,计算机被用来收集、储存和处理数据,包括语言信息数据。当时语言信息数据的运用主要还不是用作语言研究,但是计算机的引进开启了现代语料库语言学。80年代开始建立的以语言研究为导向的语料库可以作为第一代计算机语料库。计算机技术的引进,大大促进了语料的收集、储存和检索的科学化。当时语料库的规模一般在100万英文词左右,借助计算机的技术,可以进行初步的标记,这就使语料库方便输入、删除、转存、提取,也就是方便了分类和检索。 随着80年代中叶互联网的诞生并投入应用,随之而来的就是第二代、第三代语料库的发展,语料库可以连通世界各地计算机的语言信息,使语料库规模越来越大,处理技术越来越科学化。现在已有百万、千万、上亿、几亿词级的有纵深度的标注,标注编码体系越来越复杂精细而实用。近一二十年来,随着信息处理技术的飞快进步,语料库的建立越来越大规模、越来越科学化,更加符合使用主体的意图和需要。这使语料库的建立和使用更加趋向于当代大数据使用的趋势和方向。 我们还注意到,语料库的应用越来越普遍,各种专门用途的语料库不断开发,语料库的深加工和应用研究不断增多,应用领域不断拓宽。按语言研究、语言教学研究、翻译研究有通用语料库、专用语料库;按介质分有文字语料库、声音语料库;按语体有书面语语料库、口语语料库;按时间分有共时语料库、历时语料库;按状态分有静态语料库、动态语料库;按语种分的话有单语语料库、双语语料库、多语语料库等。此外,还有诸如为电子词典编纂、语音识别、语音合成、机器翻译等服务的专门的语料库。在我国,英语语料库语言学的研究是在七八十年代兴起的,汉语语料库和其他一些语种也有研究,建起了一批语料库。我国的汉语以及其他语种的研究工作者、博士生、硕士生现在进行语言研究时,除了会利用我国大陆、台湾、香港建立起来的语料库外,还会自建有关语言专题的小型封闭语料库。总之,运用以语料库形式提供的语言数据进行研究已经成为我们现在的语言研究工作者的意识和观念。 (责任编辑:admin) |