语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

第四范式:语言研究的新理念(5)

http://www.newdu.com 2017-11-16 《英语研究——文字与文 徐盛桓 参加讨论

    3.大数据思维:语言研究的新理念
    第四范式是数据密集型造就的研究范式,它的精髓就是在研究中“让数据说话”。在大数据的影响下,人们传统的研究观念和思路会发生变化,据Mayer的说明主要有:
    (1)从以抽样作为典型从而推断更大面积的情况,到尽可能全样至少是以大样品进行研究,这就是Mayer-所论述的“数据化相对于数码化”(datafication vs digitization)的意思。(Mayer-,2012:12-13,77-78)
    (2)从着重于找出它们之间的因果关系转变为分析它们之间丰富而多维度交错的相关关系,这就是Mayer-所论述的“相关关系相对于因果关系”(correlation vs causality)的意思。(Mayer-,2012:7,14-15)
    (3)从追求精确的认识转变为认识其概貌型的发展趋势,这就是Mayer-所论述的“大数据与非确定性”之间的关系(big data and imprecision)。(Mayer-,2012:13-14,16-18,191)
    这三点思路上的转变,是人们在获得科学的认识过程中思路的转变。所谓获得科学的认识是这样一个过程:认识主体从外在物的完整表象出发,不同程度地消除事物丰富的感性特征,主要是通过以从因寻果的推导把较精确的带共性性质的认识提取到自己的观念里的过程。这个过程是认识对作为认识对象的感性事物去伪存真、去粗存精、由表及里的过程;如何通过去伪存真、去粗存精、由表及里分析以便达到理性地把握对象的本质特征,其思路和方法常常要受制于个体大脑处理所面对的认识对象的心智水平。
    首先是全样相对于抽样。过去研究之所以多取抽样,主要是受收集和分析信息技术手段的限制。从认识主体的主观方面来说,个体之间的智商水平是有差异的,但人类作为一个物种,近千百年来无论是大脑生理机能还是智力运算能力都没有质的改变,改变的是认识对象的存在状况。人类创造出不同的生产工具,造就了不同的物质文明,近几百年来,经过以蒸汽机为代表的初级工业时代和以电器运用为主的发达工业时代,今天已发展为以信息为主体的信息化时代,人类社会高速度地积聚着形形色色的信息和数据,这就是近20年来所形成的“大数据”;正是这样的大数据成为现今科学研究的主要对象和科学发现的主要资源。大数据具有原始性、粗放性,不但大,而且具有多维度、全方位的丰富性,因此大数据作为科学研究的主要对象和科学发现的主要资源,它的全样可以最大限度地提供研究所需的信息,而且也为当代的科学技术提供了收集、储存、整理、分析全样的可能性,从而有可能以尽可能完整的全样代替抽样。
    就语言研究来说,迄今国内绝大多数的研究是“抽样”式的研究。就算运用了语料库也不是大数据方式的运用,而且除有些二语习得等的研究外,都不一定是统计学意义的抽样,而是带有一定支持结论目的的随机选取。例如用曹雪芹去世时他的好友敦敏写的一首名为《挽曹雪芹》的诗来支持对曹雪芹身世研究的一个结论:“四十年华付杳冥,哀旌一片阿谁铭?孤儿渺漠魂应逐,新妇飘零目岂瞑?牛鬼遗文悲李贺,鹿车荷锸葬刘伶。故人惟有青山泪,絮酒生刍上旧垌。”很多曹雪芹的研究根据诗里“新妇”一词认为曹雪芹在死前不久曾新婚;但也有研究者持异议,认为抽此单样未足为证,若将视野扩至古汉语和方言可能会提供一些新考虑。汉乐府《乐府诗集·杂曲歌辞十三·焦仲卿妻》就有:“举言谓新妇,哽咽不能语”;那时焦仲卿结婚已经三年,难道结婚三年之妻还叫“新婚”之妇?保留了古汉语成分较浓的南方方言的广州话管“儿媳妇”叫“心(新)抱”,这也许是“新妇(婆)”古音的广州方言拟音。如何比较可靠地解读敦敏那首诗并从中研究曹雪芹的一生,看来还要靠分析“新妇”一词在古今汉语和各地方言分布的全样情况才好下结论。这个例子说明,大数据的观念在语言研究中应该受到重视。 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论