据信,从时间开端到2003年,人类总共生产了大约5艾字节(exabytes)的数据。如今,人们每天都生产同样数量的数据。我们自觉不自觉地变成了大数据生产机器[1]。在学术领域,艺术研究者正在越来越频繁地以不同方式接触到大数据,不论是作为网络搜索引擎的用户,或是作为文化产业的咨询专家,还是作为艺术大数据的分析师。 一、大数据时代的到来 如果将数据理解为可计算的记录的话,那么,它几乎拥有和人类自身一样长的历史。至于其形态,则是随着历次信息革命而转变的。以语言为标志的信息革命使人们得以对计算的依据加以思考和推敲,形成了可称为“心理数据”的表象和言语;以文字为标志的信息革命为数据符号化铺平了道路,同时加快了数据积累的速度;以印刷术为标志的信息革命推进了数据标准化,有利于大规模复制和共享;以电磁波为标志的信息革命促成了数据电子化,使其加工和传播超出了人类感官的限制;以计算机为标志的信息革命实现了数据网络化,不仅通过传感技术、在线交流等途径生成总量迅速膨胀的各类数据,而且以更快的速度提高了保存、处理数据的能力。例如,人们在2011年用不到600美元的价格就能买到足以保存全世界所有音乐的硬盘[2]。大数据时代就是这样到来的。 1.大数据的特点 顾名思义,“大数据”首先是指数据量大。信息的基本计量单位是比特,1字节等于8比特(即8个二进制数),相当于1个英文字母(或0.5个汉字)的信息量。数据是按照进率1024(2[10])来计算的,1KB等于2[10]字节,相当于一千字左右英文作品的内容;1MB等于10[20]字节,相当于一百万字左右英文作品的内容。若论数据量,音频、视频要比纯文字大得多。一首MP3歌曲大约是4兆字节(4MB),一部电影大约是1吉字节(1GB,等于10[30])。作为文艺研究者,我们对于大数据的感受通常是和个人计算机联系在一起的。大致而言,以所配置的硬盘为参照系,20世纪90年代是兆字节时代,本世纪初是吉字节时代,如今是太字节时代(terabyte,1TB等于10[40])。早在2005年,亚马逊书店所拥有的3个Linux数据库的容量已经分别达到7.8TB、18.5TB、24.7TB,当时是世界同类数据库之冠[3]。如今,这类数据库的容量已经超过了皮字节(Petabyte,缩写为PB,拍字节。1PB等于10[50])、艾字节(Exabyte,缩写为EB。1EB等于10[60])的水平。美国国家安全局正在建设的犹他数据中心可望处理该局从互联网上所搜集的全部数据,其容量预计超过泽字节(Zettabyte,缩写为ZB。1ZB等于10[70])、尧字节(Yottabyte,缩写为YB。1YB等于10[80])。再往下,人们已经定义了更大容量的数据:1DB等于10[90],1NB等于10[100]……因此,所谓“大数据时代的到来”首先是指数据处理量由太字节、皮字节、艾字节、泽字节向约字节以至更高水平的发展。 循名责实,“大数据”不只是数据量大。业界从3V(Volume,Velocity,Variety)的角度概括其特点,除大容量之外尚有高速率和多类型[4]。对此,可从以下角度认识:一是数据存储量和计算量都很大。这些数据价值密度可能不高(例如,连续监控所获得的有用数据仅一两秒),但总量可能大到匪夷所思。二是数据更新、增长的速度快,处理速度也大为提高,通常要求在瞬间完成(所谓“1秒定律”)。为此,不能局限于单机处理,而是诉诸集群计算,让数十甚至数百个服务器一起工作。三是数据类型趋于多样化,不仅有结构化的数据表,还有半结构化、非结构化的文本,乃至图片、音频、视频、地理位置等信息。例如,电子商务平台eBay所定义的数据类型超过500种。除3V 之外,还有人加上其他特点:价值(Value),指数据运营的应用的重要性;可验证性(Verification),就数据的质量而言;可变性(Variability),就数据格式而言;真实性(Veracity),指数据的可信度;邻近性(Vicinity),指就近获取资源[5]。大数据不仅被理解为新型信息资产,还被理解为新的解决方案、商业模式,甚至是国家战略。 2.大数据技术的由来 “计算和记录一起促成了数据的诞生,它们是数据化最早的根基。”[6]105利用机器来处理数据,随着计算器、计算机的发明而成为可能。数据技术所经历的发展大致可以分为三个阶段。 一是数据库和联机分析阶段。20世纪60年代,用户可以直接访问磁盘、磁鼓等存储器,出现了有别于以往基于磁带的批处理的共享性交互应用,数据库由此诞生。在艺术实践中,数据库和联机分析都是创作者、传播者和鉴赏者可资利用的技术。早在1964年,IBM公司就组织了文学数据处理会议。1970年,IBM公司研究员考特(Edgar Codd)发明关系型数据库,可通过报表将数据转化为信息和知识。人们开始对多种相联数据库进行多维度的“联机分析”,这些维度可以自己定义,如产地、产品类别、生产类别等。同一维度可以下钻(drill down),如时间可以分到季、月、日;可以上卷(roll up),如各地销量可累积为全国销量。最早的联机分析(1970)通过建立中介性的数据综合引擎将分布在不同系统的数据库人为联结起来。开发人员预先为用户在后台构建多维数据立方体,此后用户可以在前端各个维度之间自由切换,从不同维度、不同粒度进行数据分析[7]。这类分析可供为提高日常工作效率而设计的运营信息系统之用。就艺术应用而言,值得一提的是:1974年英国学者法灵顿(Michael G.Farringdon)出版了《计算机定量文学分析与文学数据处理研究:菲尔丁及其若干同时代作家散文风格定量分析》[8]。20世纪80年代之后,各种供研究用的艺术数据库可谓层出不穷。至于将数据库技术用于创作,到20世纪90年代才比较流行。 二是数据仓库(data warehouse)与数据挖掘(data mining)阶段。早在1980年,美国未来学家托夫勒(Alvin Toffler)就关注人们对于信息的渴望导致数据流迅速增长的现象[9]。20世纪80年代,出现了具备独立数据存储结构的决策支持系统(1983年,最早为Teradata公司利用并行处理技术为美国富国银行所建)。1988年,IBM公司研究员德夫林(Barry Devlin)等人提出“数据仓库”观念,旨在解决企业的数据集成问题。如果说数据库旨在为运营性系统保存、查询数据的话,数据仓库则是以数据分析、决策支持为目的来存储数据。数据挖掘可以理解为数据‘模型’的发现过程[10]。它既包括旨在发现潜藏在数据表面之下的规律的描述性分析(如沃尔玛所发现的啤酒和尿布的销售关联性),又包括旨在把握发展趋势的预测性分析(如以特定算法估测图书市场需求销售量以确定进货量)。20世纪90年代,数据仓库趋于成熟。人们运用“析取、转变与装载”(Extraction,Transformation,Load,ETL)工具,按统一定义的格式提取来自不同系统的数据,经过清洗、转换、集成,使之进入数据仓库。1992年,恩门(William H.Inmon)出版《数码仓库的构建》一书[11],率先给出清晰定义和实点法则,因此被誉为“数据仓库之父”。就艺术应用而言,数据仓库、数据挖掘作为技术在网游、艺术品拍卖、艺术咨询等企业中较早找到了用途。 三是大数据技术阶段。对于大数据时代到来的原因,可以从以下三个层面加以分析。(1)社会层面。从主体角度看,全球互联网用户已达20亿,手机用户已达46亿,每个用户都自觉不自觉地生产大量数据。从对象角度看,运营商、技术开发商、内容提供商针对用户行为所做的分析正在积累海量信息。从中介角度看,以大数据处理为己任的专业公司越来越多,本身所积累的数据的规模不断扩大。(2)产品层面。从手段角度看,PC、手机、平板电脑、云计算、物联网、社交网络等新兴服务成为越来越庞大的数据源。从内容角度看,数据覆盖从个人、家庭以至国际性组织的方方面面。从本体的角度看,数据不再是简单的处理对象,而是生活和工作最重要的基础资源;数据形态日益多样化,甚至包括高清晰度的图像与视频。(3)运营层面。从方式角度看,数据生成从被动、主动到自动。我们已经进入处处有感知系统的时代,传感器、微芯片在普适计算条件下通过互联网及其他设备整合,成为源源不断的数据源,摆脱了时间、地点对数据生成的限制。从环境角度看,物联网、云计算、移动互联网、车联网、智能建筑、智慧地球等理论和实践正在改变我们所处的生态。从机制的角度看,数据总量以几何级数增长,大数据成为可持续发展的重要条件,同时是各国围绕自身利益展开博弈的新领域。 目前,大数据在艺术领域的价值已经逐渐显示出来。例如,音乐网站广泛利用大数据推荐歌曲。在线游戏通过遥测数据收集玩家在游戏中的活动情况(如曲棍球比赛中运动员在进门时的球速、击球法等),目的是挖掘玩家的游戏模式,确定游戏难度,让他们购买物品,提高客户满意度等[12]。过去游戏公司诉诸设计师的创造力,“这些设计师对待工作的认真程度就像米开朗基罗画西斯廷教堂时一样。但是,这是一门艺术而不是科学,艺术讲究的是直觉和情感”。今天,zynga的网络游戏都是交互式游戏,这家公司不仅能根据所收集的用户数据发现问题、修改游戏,而且会针对不同的玩家设计不同的游戏。其首席分析师说,“我们打着游戏公司的幌子,实际上在做的是分析公司的事。我们运作都是以数据为基础的”。大数据在电影业也有用武之地。例如,The-Numbers.com在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房,而这些信息就可以为制片人所用,据此,它向制片人提出聘用演员、制定预算等方面的建议[13]。 3.大数据价值的展现 近年来,人类社会所拥有的数据库迅速增大(估计互联网上的数据每两年翻一番),“大数据”成为业界流行语(2009)。与之相关的并行数据库、MapReduce等前沿技术备受重视。2011年7月,首届大数据世界论坛在北京召开。2012年1月,瑞士达沃斯世界经济论坛发布报告《大数据,大影响》[14]。2012年7月,首届中国大数据应用论坛在北京大学召开。2012年10月,中国计算机协会(CCF)成立大数据专家委员会。在国际上,大数据的发展和开放政府建设密切关联。2010年,美国商务部、内务部共同组织了第一次开放政府数据的国际会议。2011年12月,美国联邦政府宣布与印度政府合作,将现有Data.Gov改造成开源平台,2012年开放全部平台代码,各国可免费引进、使用与修改。2011年9月,美国、巴西、英国、挪威、墨西哥、印度尼西亚、菲律宾、南非八国发起成立“开放政府联盟”。2012年5月,《美国政府大数据计划》出台[15]。在我国,广东省2012年12月率先启动了大数据战略,进一步推进政务公开。广东省级电子政务信息资源共享平台已经建成,实现了35个省级部门、185类信息的网络共享。 “数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和信息根本搭不上边的事情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等。”[16]大数据的价值可从以下六个层面加以分析。(1)在满足人口性需要方面,大数据创造“数据化生存”,用各种数据集来体现和把握作为社会关系之总和的人、作为社会细胞的家庭、作为社会单元的组织在信息社会中的属性;整合生物信息、生理信息和社会信息,以更新人们对于遗传、发育、保健、疾病、医疗等现象的认知;预测、洞察各种社会矛盾的态势,围绕信息安全、公共安全、国家安全等开展博弈。(2)在满足经济性需要方面,大数据成为企业组织生产、开展经营、做出决策的重要工具,通过账务系统、人力资源系统和客户管理系统等关联,为企业提供运营的完整图景,有利于提高竞争力;对生产与消费的协调、社会财富的二次分配等具备参考价值,有助于核实保险、补助、捐款等情况,防止福利滥用;推动商务智能的发展,有助于市场营销中知己知彼、掌握主动权。(3)在满足知识性需要方面,大数据推动大数据技术、大数据应用、大数据工程、大数据科学的配套成龙;促进“微学位”、“微学校”等的流行,推动教育变革;促进媒体革命的深化,使跨文化传播更有效率。(4)在满足规范性需要方面,大数据有利于加强对人们心理和行为的监控,以牺牲隐私为代价促进自律;通过控制信息来维护既定社会秩序;推动有关信息收集、信息使用、信息发布、信息管理等的立法、司法与执法。(5)在满足意向性需要方面,大数据使艺术创作者、传播者、鉴赏者得以享有各种个性化服务(如个性化排序、个性化推荐)所带来的便利;使用自动计算代替或辅助人为决策,采用数据驱动的决策方法,协助发现需求、展现差异和提高绩效,以基于实证的事实引导前进方向,并提高管理的透明化程度;基于人口细分定制政策,鼓励参与,实现民主化,促进电子政务的发展。(6)在满足反思性需要方面,大数据引发关于知识发现、人性隐秘以至于世界本质的哲学思考;使人们将数据总量增长、数据技术变革、数据价值发掘等都当成历史研究和未来预测的对象;在将宗教信息也数据化的同时,孕育了信息崇拜的新形式——数据崇拜。 大数据的价值不都是正面的。它的负价值目前暴露得最明显的是强力集团、IT企业利用所搜集的用户信息实施监控,侵犯用户隐私。 二、大数据时代的艺术研究 麦肯锡全球研究所在2011年5月发表的论文《大数据:创新、竞争和生产力的下一个前沿》中指出:“各行各业的领导人(而非少数数据定向的管理者)都得把握大数据的含义。由企业所捕获的日益增加的信息总量与细节,多媒体、社会媒体与物联网的增长,将在可以预见的未来造就数据的指数式增长。”[17]这一条对于艺术研究者也是适用的。 1.大数据与艺术联系 大数据的来源之一是社会信息。在Web2.0时代,社交媒体获得普及。因此,会有越来越多的职业艺术家与业余艺术爱好者将大数据当成自己的生活构成、灵感来源和取材对象;也会有越来越多的数据分析专家加入艺术研究队伍,会有越来越多的艺术研究工作者掌握大数据分析能力;还会有越来越多的把关人必须和大数据流动打交道,越来越多的中介机构看好艺术大数据的市场。 在社会层面,我们不仅可以运用微软学术搜索(http://libra.msra.cn/)去了解学术动态,而且可以运用微软亚洲研究院开发的“人立方”(2008)得知学者的社会联系。它从超过十亿的中文网页中自动抽取出人名、地名、机构名以及中文短语,计算出关联可能性,用彩图展示出当事人的关系网。该图在一定程度上显示出人物名称之间关联度的强弱。笔者尝试输入新媒体艺术界两位大腕的姓名:一位是英国的阿斯科特(Roy Ascott),另一位是美国的曼诺维奇(Lev Manovich)。虽然人立方关系搜索主要是面向中国用户开发的,但仍然勾勒出了这两位外国人的社会关系图。粗略对比就可以发现:阿斯科特在中国所拥有的社会联系要比曼诺维奇广泛得多。至于这两位艺术家、艺术理论家及其“关系户”的主要事迹,从人立方所呈现的“必应”(Bing)引擎搜索结果可以进一步挖掘。 正如中国人民大学高钢所说,“人立方关系搜索”的应用功能实际上预示着互联网系为核心的社会关联结构的展示,以及以人的历程为线索的社会发展进程的瞭望[18]。从搜索出的关系图看,搜索引擎已经能够大致区分人物之间关系的密切程度,但还不能定义人物之间主要角色关系的性质(这个问题明显要难得多)。尽管如此,这类关系图对于拓展研究者的视野仍是有益的。至少,我们可以根据图中所提供的人名进一步在人立方网站上搜索,试图弄清这些人之间的关系,在某些时候有必要考察这类虚拟联系的来龙去脉。人立方关系搜索还提供了六度搜索功能,这既是对这一著名假设的验证,又是对当事人社会交往的揭示。 2.大数据与艺术产品 在产品层面,大数据条件下的艺术作品具备媒体多样、信息复杂、变化频繁的特点。与此相应,艺术研究手段将采用更多的数据采集、数据存储与数据分析工具。艺术研究内容将转向分析数据趋势、通过人机合作揭示单凭人所无法把握的各种模式。艺术研究成果将更多地采用数据可视化的形式。 搜索引擎是当今人们获取信息的入口。2006年推出的免费海量数据分析服务百度指数主要反映关键词在过去30天内被搜索的次数。它以百度网页搜索和百度新闻搜索为基础,成为社会心理的尺度之一。它已经被用于研究旅游景区的网络关注度(2008)[19]、城市的网络关注度[20]、投资者有限关注与股票收益的关系(2012)[21]等。这一服务其实也可以用于艺术研究。试以李白诗、杜甫诗比较来说明。 资料表明,李白诗、杜甫诗2006~2013年的媒体关注度和2013年6月4日至7月3日每天变化的用户关注度。小方框内字母代表对应的新闻(网站上有显示)。从总体上看,李白所获的关注度略高。百度指数还能统计出关注者的城市分布、性别分布、年龄分布、职业分布、学历分布,因而可以将有关李、杜或者任何诗人的当代接受比较具体化。例如,根据2013年5月21日的统计,关注李白诗者男性占67.37%,女性占32.63%;关注杜甫者男性占56.55%,女性占43.45%。 3.大数据与艺术运营 在运营层面,若获得物联网等技术的支持,人们不仅可以把握每部作品的总体复制、传播、阅读情况,而且可以了解它的每一个复本是为哪些受众、在什么条件下所接受,实现由粗放接受研究方式向精密接受研究方式的转变;艺术研究环境将越来越依赖于云计算,人们将有可能通过网络以按需、便捷扩展的方式获得所需服务,建立“艺术云”;艺术研究机制将越来越带有预测的性质。 以往的艺术研究也关心发展趋势,但倾向于以史为鉴,特别是以所理解的“历史规律”为依托瞻望未来。大数据时代的艺术研究用数据说话,不仅从微观上预测作者、读者的具体行为,而且从宏观上预测市场变化。就前者而言,进入大数据时代之后,机器日益贴心化。“亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁”。这些任务都和个性化技术相关,包括个性化排序和个性化推荐[22]。就后者而言,“谷歌趋势”可以为例。这一服务和百度指数有相似之处,都是根据用户搜索次数来排名的。笔者为了解中国动画、中国文学在国外的传播情况,分别输入了相应的英文关键词,结果得到两张示意图(图略)。可以看出,中国动画所受到的关注超过中国文学。不过,中国动画自2005年以来在国外“吸引眼球”的程度并没有随着以分钟数计算的总产量的迅速拉升而成比例增长,反而略有下降;中国文学2005年以来在国外所受到的关注度甚至总体上呈下降趋势。示意图时间轴2013年以后虚线部分持平(略有下滑),这是谷歌趋势对中国动画、中国文学今后一段时间所能赢得的关注的推测。如果这两张图是人绘出来的话,我们会说研究者“不抱乐观态度”。但这是机器对数据的显示,因此给人以某种客观的印象。谷歌趋势还以其他图表显示中国动画、中国文学关注度的地区分布、城市分布。除查看关键词的搜索次数及变化趋势外,谷歌趋势还可用于显示查看网站流量,显示不同国家的热门搜索关键词,这对艺术研究都是有用的。 显而易见,谷歌趋势和百度指数可以综合利用,学术界已经有人以之研究网络舆情时空演化[23]。我们可以利用它们来研究艺术关注度(前提是有引擎中有合适的词条)。 三、大数据时代的艺术潜学科群 艺术是人学。各种艺术潜学科尽管重点不同、观念有别,但贯穿了一条共同的意脉,即人的类特性。它具体化为工具与产品、语言与意识、规制与身体三对矛盾。工具制造从实践中将人类从动物界提升出来,使实践的对象成为产品;语言发明从心理上建立与维护人类之间的联系,使意识(特别是自我意识)得以形成;规制实施从组织上使人类社会和动物种群相区别,并使身体成为社会权利和社会义务的承担者。人的类特性并非一成不变,而是随着上述矛盾的发展而发展。相关理念在大数据时代的变化对艺术潜学科有重要影响。 1.从科学范式看大数据时代的影响 正如图灵奖得主格雷(Jun Gray)在论及范式时所指出的,科学研究已经从几千年前的实验科学(描述自然现象)、几百年前的理论科学(牛顿定律、麦克斯韦方程之类)、几十年前的计算科学(复杂现象仿真)之后,进入了第四阶段——数据密集科学(理论、实验和仿真的统一)[24]。就总体而言,“数码密集科学”不是某一门或几门新学科,而是各门学科在大数据时代具备共同性的转型。它获得了如下支持:(1)大数据工具。在传统社会中,人类所制造的工具以硬件为主。随着信息社会的到来,软件逐渐成为相对独立的工具。大数据工具有多种类型,如可对大型数据集进行扫描的应用平台Hadoop,内置专业知识的信息管理软件IBM PureData,通过大量廉价服务器实现大数据并行处理的编程模型MapReduce,等等。从广义上说,物联网、云计算等信息基础设施及星罗棋布的嵌入式设备都是大数据工具。(2)大数据产品。其形态主要是各种大规模数据集或数据流。它们目前已经是宝贵资产,将来甚至可能成为大宗商品,造就辉煌产业。许多组织已经对内启动大数据治理计划,优化、保护和利用自己所拥有的大数据,对外寻找基于数据挖掘、数据交易的商机,如交叉销售、基于位置的销售、店内用户行为分析、客户群划分、情绪分析、渠道整合等。大数据产品旨在通过数据共享、交叉复用实现数据价值最大化,在流通领域经常和个性化营销相联系,强调对社交网络海量数据加以挖掘。(3)大数据语言。它以语义网为标志。语义网(Semantic Nets)在1956年提出,用于表示机器翻译中自然语言之间的关系。1999年,英国科学家伯纳斯-李提出基于万维网的语义网(Semantic Web),设想通过给万维网上的文档增添能被计算机理解的语义(即元数据),让机器可以分析其内容、链接以及人与计算机之间的交易,从而使整个互联网成为通用信息交换媒介[25]。简言之,语义网就是能够由机器直接或间接处理的数据构成的网络。这些数据能够自动整合、跳转,仿佛拥有生命。为了让这种智能网络能够理解人类语言,关键是人们必须对全世界万事万物的基本特点及其关系进行规范和定义。这一工作被视为对“本体”(Ontology)的创建。(4)大数据意识。它以超级大脑为标志。不论是由传感器所获取关于自然界、社会和人体的各种数据,或者是由人类活动、机器运转、程序运行所生成的各种数据,还是在标识过程中赋予的各种元数据,都能够被聚类、集成、处理、利用,万物一体、主客交融都不再只是抽象的理念。因此,大数据意识强调宏观性。一旦人们普遍学会运用大数据来思考,便有可能摆脱个人经验、个人处境、个人好恶等因素所造成的局限,进一步理解大数规律在决定社会变化所起的作用,减少个人的认识盲点和决策失误。因此,大数据意识强调容错性。一旦超级大脑能够全面整合不同来源的大数据,便有可能勾勒出比较可靠的世界图景。大数据技术可以展示不同事物之间的关联,大数据本身就是世界运动变化的映像。我们可以通过对象之间的数据关系来把握思维和世界的同构关系,不仅占有知识,而且预见未来。因此,大数据意识强调相关性。(5)大数据规制。它以“智慧地球”(Smart Planet)为标志。这一范畴是IBM总裁兼首席执行官彭明盛(Sam Palmisano)2008年11月6日在纽约召开的外国关系理事会上首次正式提出的,具备工具性(Instrumented)、智能性(Intelligent)和互联性(Interconnected),即3I[26]。它计划把感应器嵌入和装备到各种物体中并被普遍连接,形成“物联网”;借助这个整合能力超强的网络,对网络内的人员、机器、设备和基础设施进行实时管理和控制,继而使人类能为更加精细和动态的方式管理生产和生活,达到“智能”状态[27]。人类社会的集中化程度和分散化程度都将因大数据技术而提高。一方面,各国政府、国际机构和商业巨头都可能运用自己所掌握的大数据对社会动态实施更严密、更精确、更敏锐的监控;另一方面,社会成员和地下组织也可能利用大数据进行更有效率的反监控或逆向监控。(6)大数据身体。它以虚拟人为标志。借助于大数据技术,人们可以全面监测人体的各种变化,将心率、血压、呼吸和血氧水平等多种生命体征转变为信息流;可以全面模拟各种生命,从最小的生物活体(支原虫)到最大的海洋生命(蓝鲸),从分子互动到基因变异。如果现在的大数据技术就已经能让谷歌大脑(Google Brain)通过深度学习认识猫的话,那么,未来的大数据技术完全可能让人工智能创造出更多奇迹。 综上所述,大数据时代人的类特性在一定程度上表现于作为工具的信息基础设施、作为产品的大规模信息流、作为语言的语义网、作为意识的超级大脑、作为规制的智慧地球、作为身体的虚拟人的结合。这种趋势将大大提高人类的分析能力,扩展人类的知识宝库。由此造就新型的数据分析家。这些人不是坐在角落里没日没夜地摆弄奇妙算法的“统计极客”,而是跨专业人才。“分析不止是科学,还是一门艺术。优秀的分析是可靠的科学加上艺术的神来之笔……每个分析专家都有自己进行分群模型分析方法。这些方法对于他们来说就是艺术。”[28] 2.从文化组学看大数据时代的影响 大数据时代的到来不仅促成了科学范式的整体转型,而且催生了与之相适应的新学科,后者的代表之一是文化组学(culturomics)。它由哈佛研究者米歇尔(Jean-Baptiste Michel)与分子生物学家艾登(Erez Lieberman Aiden,一译埃顿)在《运用数百万数字化书籍的文化定量分析》一文提出来的(2010)[29]。艾登以前是研究基因组学的,因此“文化组学”这个词表示了文化科学和生命科学之间的联系。关于文化组学的作用,可援引下述例子来说明:伊利诺斯大学李塔鲁(Kalev H.Leetaru)通过对印刷媒体与广播媒体新闻档案中透露出“情绪”的词语及地理数据相关性的考察,居然预见到2011年的“阿拉伯之春”,并将本·拉登最后的藏身之地做了误差在124英里之内的判定[30]。尽管有些学者仍质疑这一学科的价值,但大数据时代文本挖掘的重要性已经昭然若揭。 正是米歇尔和艾登参与开发了Google Ngram Viewer。这一浏览器基于谷歌所扫描的数千万本书。他们对比20世纪前半叶的德语和英语文本,展示了被纳粹政权压迫的犹太画家夏卡尔(Marc Chagall)的情况。“n-grams”工具可以确认至今未知的其他被压迫的艺术家、作家和活动家。他们用类似基因组分析的方法研究书籍数据库,并希望在未来的研究中,将报纸、博客、艺术、音乐都纳入其中[31]。它完全可以用来研究各类艺术的演变。 图3 显示关于数码艺术的书籍的数量在1883—1892、1952—1965年各有一个小澜漪(那时还没有计算机,因此这类书籍所论只能是广义数码艺术),到1990年之后呈现比较稳定的增长(可能与万维网登场有关)。曲线尾端的下滑可能和新书扫描入库的速度有关。谷歌虽然在网页上设有供进一步挖掘的热区(即在图书中查找),甚至有获得全文的选项,但目前并未开放。我们只能满足于“‘数码艺术’在英文书刊中堪称渊源有自”这样的印象(至迟在1866年的文献中就出现了词组digital art),但无法深究其含义。如果谷歌愿意授权并提供接口,那么,利用Google Ngram Viewer所能做的挖掘应当是可观的。 图3 数码艺术相关书籍数量 3.从文化批判看大数据时代的影响 迈尔-舍恩伯格、库克耶认为大数据的精髓在于分析信息时理解和组建社会的方法的三个转变:(1)有可能使用和特别现象相关的所有数据,而不再依赖随机采样。这带来了更高的精确性,让我们看到一些以前单靠样本无法发现的细节。(2)研究数据如此之多,以至我们不再热衷于追求精确度。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。(3)无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,不必知道现象背后的原因,只要让数据自己发声。”[32]英国《经济学家》杂志数据编辑丘基尔(Kenneth Neil Cukier)也认为:以让计算机能够推断概率的方式对大量数据加以利用,要求人们在三个方面彻底改变对数据的态度。第一是收集和使用大量数据,而不是像统计学家们在过去100多年里所做的那样,只满足于少量的数据或样本。第二是抛弃人们对有条理和纯净的数据的偏爱,转而接受杂乱无章——在越来越多的情形下,少许的不精确是可以容忍的。第三,在许多场合,需要放弃对事情原委的追究,代之以对相关性的接纳。利用大数据,而不是试图弄懂发动机抛锚或药物副作用消失的确切原因,研究人员可以收集和分析大量有关此类事件的信息及一切相关素材,找出可能有助于预测未来事件发生的规律。大数据有助于回答是什么、而不是为什么的问题——通常有这样的回答就足够了[33]。 上述转变对于艺术研究者确实构成了很大的挑战。由样本到全本的转变固然带来了理解全貌的可能性,但明显增强了人对机器的依赖性,因为处理大量数据本来就是人类所难于单独胜任的;由微观到宏观的转变固然带来了高瞻周览的可能性,但明显放宽了对于可信性的要求,因为没有微观层面精确度支持的宏观研究往往可能出错;由因果性向相关性的转变固然扩展了人们的思路,但明显限制了对于事物内在价值的追求。 应当看到,作为艺术研究的辅助手段起作用,对大数据技术来说只是小试牛刀。目前,除非有专门经费支持和数码分析专家参与,我们还无法从事全网规模(Web-Scale)的网络艺术概况这样的研究,也无法领略所谓“个人大数据”(personal big data,包括心率、体重、血压、含氧量、运动、体温、社交、购物等)如何成为高知识创造(high knowledge creation)的契机[34]。尽管如此,大数据技术和数据密集科学相辅相成。它要求计算机能够推断概率,要求运行于数十、数百甚至数千个服务器上的大规模并行软件。要求将数据挖掘前端化(实时数据的处理和实时结果的导向)、直接为消费者服务,将云计算所包含的服务和平台与各种嵌入式设备有机结合起来。它对于艺术创作、艺术评论、艺术研究以至于艺术理论的影响将日甚一日地显示出来。 “在2000年,世界范围内绝大部分信息是以模拟形式记录的,而今天,世界上90%的信息是数字形式的。”[35] “在过去的50年中,数字存储的成本大约每两年就削减一半,而存储密度则增加了5000万倍。”[36]过去3年数据量比以往4万年还多。2010年全球数据量已达1.2ZB,年增长50%。2013年,10分钟的信息总量将达1.9ZB[37]。诸如此类的说法都反映了大数据时代正在到来的事实。不过,大数据应用存在诸多亟待解决的问题,如元数据、数据质量、数据安全、数据隐私、数据混合访问等。在国外,有人就将大数据与英国作家奥威尔(George Orwell)小说《一九八四》(1948)中描写的“老大哥”联系起来思考,所担心的自然是社会管控因此无此不入。我国学者则指出:大数据不等于全数据,不等于真数据[38]。大数据可能加深我们对真相的理解,但也可能造成新的误解。因此,我们对大数据及其应用仍必须持审慎的态度,不仅承认其魅力,而且正视其局限。 [1] Rohits.Big Brother or Big Benefactor:It's Invisible,Omnipresent and Almost Indestructible.Big Data Is Changing Your Life Every Minute[N].India Today,2013. [2]Kelly,Kevin.Web 2.0 Expo and Conference[EB/OL]. [2013-5-21]http://www.web2expo.com/webexsf2011/public/schedule/proceedings. [3] Layton J.How Amazon Works.[EB/OL].[2013-05-23]http://money.howstuffworks.com/amazon1.htm. [4] Douglas L.3D Data Management:Controlling Data Volume,Velocity,and Variety[J].Meta Group,2001. [5] 谭磊.大数据挖掘[M].北京:电子工业出版社,2013:5. [6] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013. [7] 涂子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业和我们的生活[M].桂林:广西师范大学出版社,2012:93-97. [8] Farringdon,Michael G.A Study of Quantitative Literary Analysis and Literary Data Processing by Computer:With some Quantitative Analysis of the Prose Style of Henry Fielding and Some Writers Contemporary with him [M].Bristol,Eng:Bristol University,1974. [9] Toffler,Alvin.The Third Wave[M].New York:Morrow,1980:183. [10] ]Rajarman A,Ullmani J.D.大数据:互联网大规模数据挖掘与分布式处理[M].王斌,译.北京:人民邮电出版社,2012:1. [11] Inmon,William H.Building the Data Warehouse[M].New York:John.Wiley & Sons,1992. [12] Franks B.驾驭大数据[M].黄海,车皓阳,王悦,等,译.北京:人民邮电出版社,2013:61-63. [13] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.第183-184页。 [14] The World Economic Forum.Big Data,Big Impact:New Possibilities for International Development[EB/OL].[2013-5-21]http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development. [15] 郭晓科.大数据[M].北京:清华大学出版社,2013.第107-112页。 [16] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.第20页。 [17] Manyika,James,Chui M,et al.Big data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2013-5-21]http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation. [18] 高钢.人的社会关系的深度揭示与公民信息权利的深度实现——从“人立方关系搜索”看网络技术进步的社会意义[J].人权,2010(3):10-14. [19] 李山,邱荣旭,陈玲.基于百度指数的旅游景区络空间关注度:时间分布及其前兆效应[J].地理与地理信息科学,2008(6):102-105.;林志慧,马耀峰,刘宪锋,高楠.旅游景区网络关注度时空分布特征分析[J].资源科学,2012(12):2427-2432. [20] 张力.基于百度指数分析的地域网络关注度研究——以镇江为例[J].图书情报研究,2012(1):40-47,14. [21] 俞庆进,张兵.投资者有限关注与股票收益——以百度指数作为关注度的一项实证研究[J].金融研究,2012(8):152-165. [22] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.第17页。 [23] 陈涛,林杰.基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J].情报杂志,2013(3):7-16. [24] 李志刚.大数据:大价值、大机遇、大变革[M].北京:电子工业出版社,2013.第8页。 [25] 伯纳斯-李.编织万维网[M].张宇宏,萧风,译.上海:上海译文出版社,1999:154. [26] Ibm.What is Smart Planet[EB/OL].[2013-5-23]http://www.ibm.com/smarterplanet/us/en/overview/ideas. [27] 郭晓科.大数据[M].北京:清华大学出版社,2013.第79页。 [28] 李志刚.大数据:大价值、大机遇、大变革[M].北京:电子工业出版社,2013.第171页、184页。 [29] Michel,JEAN-BAPTISTE,AIDEN L,EREZ.Quantitative Analysis of Culture Using Millions of Digitized Books[J].Science 331(6014),2010:176-182. [30] Leetaru,Kalev H.Culturomics 2.0:Forecasting Large-Scale Human Behavior Using Global News Media Tone In Time And Space[J].First Monday,2011(9). [31] 胡昭阳.文化组学:在数字人文学领域中的探索——记分子生物学家利波曼·埃顿的“文字游戏”[J].世界科学,2011(8):48-51. [32] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.第17-19页。 [33] Cukier K.N,Mayer Schoenberger V.The Rise of Big Data.How It's Changing the Way We Think About the World[J].Foreign Affairs,2013. [34] Kim Y,Moon J,Lee H-J,Chang-Seok Bae.Knowledge Digest Engine for Personal Bigdata Analysis[J].Human Centric Technology and Service in Smart Space.Lecture Notes in Electrical Engineering,Volume 182,2012:261-267. [35] 舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.第7页。 [36] 同上,第131页。 [37] 李志刚.大数据:大价值、大机遇、大变革[M].北京:电子工业出版社,2013.第9页。 [38] 郭晓科.大数据[M].北京:清华大学出版社,2013.第102-105页。 原载:《徐州工程学院学报:社会科学版》2013年第6期第83-91页 (责任编辑:admin) |