事实上,两个因素是否相关或具有因果关系是一个复杂的问题。借助统计技术,我们或许不难发现某种相关,但要随之做出因果推断则需慎重,因为这需要一定的理论支持和实验数据,有时甚至是跨越几代人的实验数据。大数据技术之所以不是万能的,就在于它代替不了各个领域的基础性研究,也解释不了相关背后的因果关系。我们不妨从以下几个方面来看待: 每一种现象都有与之关联的若干现象,这种关联的确立本质上取决于研究者的认识框架和处理问题的层级。比如,语言学研究可以优先选择字、词、形态作为基本分析单位,也可以选择构式、句子、语篇等;不同层级的处理方式,不仅体现研究者间认识框架的差异,也会导向不同的研究结论。把语言分为“强将来时”和“弱将来时”是一种质性认识,也代表研究者处理问题的层级和水平。问题在于,世界语言并非都拥有“时态”,“强弱”也是一种较难把握的分类标准,这就给此类研究带来不少争议。就汉语而言,我们可以说“明天下雨”,也可以说“明天将要下雨”,“将要”就是汉语表达“将来”义的词汇手段,但不是“时态”。 大数据的“大”并非万能灵药,数据的性质和成分非常关键。以文本大数据为例,这类数据本质上是种离线数据,并不能完全反映语言的实际使用或说话人的语用、心理或认知过程。比如,汉语的“呵呵”“好冷”“三更灯火五更鸡”等都存在超越字面意义的多个含义,对母语者来说不难理解,但却很难被机器识别或有效计量。 再者,数据的成分也决定了相关性研究的成败。当样本中的语言或国家大多集中于同一地理区域或同源文化圈时,研究者得出的相关性,很可能只是反映了某区域或某文化的共同特征,并不一定适用于其他语言或国家。2015年,希安·罗伯茨(S.G.Roberts)等人采用更合理的采样方法,对经济区域、亲缘关系、语言接触三个因素进行了控制,就发现时态和经济行为的相关性证据总体上非常微弱,因此“时态经济学”一说并不成立。再如,米歇尔(J.B.Michel)等人用于研究词汇与社会文化关系的数据库,虽然词汇量达到了亿万级,但由于偏重于20世纪60年代后的文献,对词汇演变研究的作用也很有限。 不仅如此,由于一个词在不同历史阶段的意义并非连贯一致,也不能单靠语料库中的词频变化来推测文化变迁(如米歇尔等的研究方法)。就汉语词义演变而言,当诸葛亮自称“卑鄙”时,并不是因为“粗俗下流”是当时的文化主流,而是他作为人臣的一种自谦的表达。可见,语言社会研究不是纯粹的计量问题,还需要对人文、社会、历史等领域的研究有一定的认识,才能进一步合理指导实践。 提出以上几点,不是为了否定计量技术的价值和意义,而是要提醒人们注意这类技术可能带来的虚假信心或对多样化研究路径造成的消极影响。 语言是能产的、多变的,它可以被符号记录,也能被视觉、听觉和触觉所感知;既是一种内在认知能力,也顺应不同时期的社会规范。这就决定了此类研究有着不同的内容、不同的使命和不同的范式,其中有些需要逻辑思辨、质性分析;有些需要实证检验、量化分析,并不能一概而论。 人文社科工作者从事的田野调查、文献考证以及人文理论建构等工作,具有以人为本、质性研究的特征;量化工作者可以借用第一手调查资料、依托各种计量技术,从变化莫测的语言社会现象中寻找一定的规律,既验证理论,也推动理论。一旦量化分析出现无法解释的现象,就有必要追本溯源,再次诉诸质性分析的过程,重新提出假设并寻求验证。 从事有质性研究特征的工作者无须排斥计量技术的发展,应当欢迎它们在语言社会研究中的积极作用;而秉持量化理念的研究人员在享受技术进步带来便利的同时,也要重视质性的研究成果。技术总是在不断更新,但任何一个学科的技术都不能代替这个学科本身。这就好比天文学离不开望远镜,但天文学终归不是制作望远镜的学科。 最后,我们认为语言社会研究始终存在“主体视角”(emic)和“客体视角”(etic)的区分。从主体视角出发,我们要有追求根本性因果关系的决心和勇气,而不是受技术束缚,存在“只要相关,不要因果”的幻想。这就督促我们努力创建适合自身的语言社会理论和参照体系,构建有“中国特色、中国风格、中国气派”的人文社科体系。我们也要重视客体视角、“他山之石”的作用,关注国际学术发展趋势,兼容并蓄。只有这样,才是语言社会研究正确的发展方向。 (作者:吴建明,系上海外国语大学语言研究院、中国外语战略研究中心副教授) (责任编辑:admin) |