一 技术与方法的革命——古代文献电子信息化的现状和前景 王毅: 李老师,您多年来一直从事古代文献电子信息化的实践工作和理论探索,若干年前您主持开发的北京大学“211项目”标志性成果“《全唐诗电子检索系统》”曾得到学界的好评;最近完成的《全宋诗》信息化工程,与《全唐诗》相比,在设计方法和思路上更有了一系列重要的发展。所以,能否请您简单介绍一下近年来古代文献信息处理领域的发展方向和达到的水平? 李铎: 《全宋诗》数字化以后,我并没有像《全唐诗电子检索系统》那样称其为“检索系统”,因为它不是单纯的“检索系统”,而是“分析系统”。现在有许多大型的古代文献检索平台,往往是由商业公司开发设计的,仅仅是提供信息服务的“全文检索”。而“分析系统”则不同,它是由计算机提供经过分析筛选的条理化的信息,已经带有智能化的特点,可以直接完成一些人力无法完成而又是十分重要的课题,如“字频分析”、“格律分析”、“用韵分析”、“重出诗提取”、“话语系统分析”等等。 计算机应用到古代文献研究虽然十多年前就起步了,但当时不成规模,纯粹是实验室行为。大规模借助计算机研究文献的前提是要有丰富充足的语料。1995年以前,普及型的个人计算机不支持大字符集,仅有6763个汉字,无法做古籍整理、文献录入等工作。1996年以后,有了两万多汉字的GBK字符集,又可以支持繁体汉字,这便为大规模录入整理做好了准备工作。加之古代文献又不大涉及版权问题,所以短短几年里就有了《四库全书》、《四部丛刊》等等全文检索系统。 王毅: 就我所知,在实现了对古籍信息化处理这个平台上,现在大家经常运用字频统计的方法推进我们的研究工作,这种方法的长处显而易见,比如我们以前研究一个时代之中有哪些流行的文学语词、意象,研究一个文学的概念(比如风、骨、气、韵等等)内涵以及多个文学概念之间的关系(比如风骨、气韵、韵致、流丽、沉郁、盛唐气象等等),这些研究对象如果限定在上古、中古时期,那么还有一些类书可做辅助,但是如果希望将研究视野扩展到唐宋以后,就会因为文献数量的庞大而非常困难。但是现在这些困难就被完全扫除了,可以在举手之间为我们的研究找到大量的文献根据,而且很容易梳理出其间的流变脉络。这种极大的便利是在古籍电子信息化以前根本不敢想象的;过去做引得、尤其是在引得基础上再做资料的勘比分析是一门功夫,也是一种成就,比如叶圣陶先生的《十三经索引》,是全家人花了一个暑假完成的,而现在交给电脑恐怕几分钟就做完了。 凭借电子文献的便利而做穷尽式研究,也是过去所不敢想的。记得傅璇琮先生曾以中晚唐诗中多“夕阳”之类意象为例,来说明从中晚唐开始的一种文化心理的变化;我自己以前的著作中也举出自白居易至两宋时,人们越来越普遍地用“蜗角争斗”、“壶中天地”等等空间的概念,来表现对纷纭世事的态度和对自己理想生活方式的设计。这些在以前都只能是一种对文学现象的大致说明,而难以有统计学的充分依据,而今天在古籍电子信息化的平台上做这类意象、概念的统计分析就很容易了,而且不仅可以分别对一系列具体的概念和意象做穷尽史料的扫描统计,而且更可以对多重意象、概念等等做出综合的统计分析,比如“夕阳”的意象经常与其他哪些文学意象组合在一起,这种组合在文献中的时空分布是怎样的(何时起始、什么人的作品中最为常见),等等。 但是,现在的这种“容易”也很快显出其可能的弊端。比如现在几乎可以说,你有任何一个论点,都不难迅速为其找到大量的依据,那么这种“研究方法”的基本支撑就因其廉价性而很值得怀疑。您对字频统计的利弊方法很有研究,那么您对这个问题是如何看的呢? 李铎: 北京人将组装电脑称为“攒电脑”,现在有些研究生,也在“攒文章”、“攒书”。导师给个题目,即使没有语料,但凭借网络上的资源,很快就可以将“论文”“攒”出来,如果从引用的数据看,还觉得这学生读了不少书。我四年前曾在《中华读书报》上撰文对这种现象表示忧虑。翻检资料本身也是个读书过程,是学术能力提高的过程,过于便利的检索往往会使写论文本身的目的异化。但是在现在的时代,的确无法改变学生们这种“攒”论文的方式。问题可能出在导师,导师应该让学生通过写读书报告等方式表述出自己的独到的读书体验,不要只是交给学生一个可以堆集资料的论文题目就完事了。而另一方面,在我们这个时代,传统的研究方法也需要改变,尤其是传统的课题。过去辑佚出一部书、搞出一个人的年谱、集注一部书都是不得了的硬功夫,而现在,这些工作大都可以由计算机来做,所以今天的学者应该结合电脑的优势,选择新的方向和课题,用新的方法来研究。 说到字频统计,这是比较早应用于作品风格分析的手段,但是前期的字频统计在理论上建设不够完善,统计方法过于单一。生成的字频表,往往是“线性表”,即简单由高到低的排序,而当时人们往往就根据这样的结果来做作品真伪等等分析。而实际上,我们发现,同一个作者,不同的内容、不同的时期、不同的写作情景都会出现字频变化。如果要将字频统计应用到文献研究,就要加上非常多而且复杂的参数,发展成为可对比的平面字频结构。但是,如果将字频统计应用到文学研究,如作家作品之关系、语言风格等等,这样做还很不够,还需要建设多维的字频统计模型。如李白诗歌的字频虽然可以和杜甫,和整个唐人、宋人诗歌字频比较,但是我们需要的是,将李白的字频分位清理出来,如某字在李白的字频表中占高位,而这个字在全部唐人诗作中却占极低位,这样的字有多少,分布规律是什么,都可以生发出很多值得研究的新颖课题。脱离具体字的频率表对作家风格研究也是有益的,一个作家在完成若干字的文章后,他的文章中应出现多少个不同字,最高频字占总字频的比率是多大,等等。 有人比较李白、杜甫诗中“黄金”一词的使用情况,由此来说明两个人的性格、经济状况和人生态度。其实这是不正确的。计算机提供的唐诗中“黄金”一词数据统计结果,对其使用频率最高的前十位作者依次为:花蕊夫人、陈子昂、德宗皇帝、李白、高适、和凝、卢仝、韩翊、徐夤和李贺,而这些诗人似乎并无性格、经济状况和人生态度的一致性。但是有些字,或许可以透出真实的信息,如“夏”字的使用率,前十位的诗人有四位是皇帝。有些字频分析结果则很让人吃惊,如“情”字,全唐诗人中使用率占第一的竟是皎然,而且他所用之“情”就是“感情”那个意义上的“情”。 西方字频统计理论往往比较单一,除字频外,它还将字长作为附加统计项,因为西语单词的长度差别较大,有人爱用多音节的词,也有人爱用较少音节的词,而汉字不存在这样的问题。由于自身的特点,加上通假等因素,所以,在字频分析系统上,我们加入了“汉字音频统计”,可以分析一篇文章含某音的字;加入了“汉字部首频率统计”,即含有某一部首的字的频率、叠字频率、联绵字频率等等,这些统计直接整合到字频统计系统中,便是我们所称的“多维字频统计”。过去人们在对《红楼梦》进行分析时,用的是纯西方的字频统计方法,仅限于字频率和常用词频率,附加值是句子的长短,缺少多维的字频分析系统,所以无法真正判定前八十回与后四十回是不是同一个作者(它的判定结果是,是同一作者)。 多维字频统计的功能之一,是可以对不同的话语系统实施分析鉴别。有人认为《易传》更多的是道家思想,而非儒家。我们初拟出一个统计方法,将属于道家的典籍和属于儒家的典籍用语做多维的对比,然后再将《易传》进行分析,结果告诉我们,《易传》是属于儒家的话语系统的。 王毅: 这样看来,在研究中如何运用字频统计是一个复杂问题,这里面不仅有一个具体应用方法是否恰当的问题,而且更隐约说明:现在我们关于电子文献处理的理论方法还不健全,应用性的方法还没有建立在成熟的理论基础上;另外我们文史研究者的知识结构也有待改进,比如以往我们很少意识到需要有统计学方面的知识,但实际上,现今在其他人文学科(比如社会学、经济学),统计学已经是研究者必备的工具之一。 再有一个比较重要的问题,就是我感觉到目前文学史研究者对电子文献的利用,大多还是停留在简单的文献检索方面,并没有充分利用或开发电脑本身特有的功能。就是说,我们还是把电脑当作一个高速的“检索机”,其基本方法还是传统“引得式”的。而您是较早注意到全面发挥计算机自身功能的学者,比如您提到的标出《全宋诗》格律,据说这就是一项开发计算机自身功能的重要尝试。 李铎: 我们曾对《全唐诗》五万首诗做过人工标注,纸介《全唐诗》未标注出格律,而我们可以利用我们对格律诗的知识,使《全唐诗》检索系统不仅仅是全文检索,而且可以依据格律来检索。这项工作完全是由人工进行的,这是极繁重的工作。仅此一项标注工作,就占去了《全唐诗》开发工作总量的四分之一。《全宋诗》有二十五万余首诗,是《全唐诗》的五倍,人工标注已太过困难。所以,我们尝试使用计算机自动标注。 格律诗模型的建设是前期的主要工作,我们依据王渔洋的《律诗定体》和前人的研究成果,建设了二十八种格律诗模型库。这同时还需要对已有的文字建设音韵库,我们依据《佩文韵府》建设了诗韵库。 二十八种格律诗模型并不是一个简单的平仄表,它需要对各种拗体诗也能准确的描述,这样就要求借助计算机系统的模糊算法。实际格律诗体达数千种,模糊算法就是允许有与模型有一定量的差别,由此使《全宋诗》中的十六万首格律诗由计算机自动标识。用这种算法,我们再回头来验证以前做的《全唐诗》格律人工标注,发现错误率比较高,而对计算机自动标注的抽样分析近千首,尚未发现错误标注。 在韵的分析方面,由于《佩文韵府》所定义的汉字,有太多的多音字,且分属不同韵部,尤其是同时分布在平声字和仄声字中。而在建宋诗平仄库时,由于没有宋诗的字组库,那么计算机在识别判断平仄时便遇到了困难,如“相”字,在“相思”词中是平声,在“宰相”中则是仄声,如果有字组表(即通常说的词表),我们将“字组”的信息也附加上运算,会比较容易地解决这个问题。现在的问题是:我们虽然可以根据诗的格律来判定当平当仄,可是这格律又是在建库时就要确定的,为解决这一问题,我们引入了“层次分析算法”,即第一步先将固定平仄的字标识出来,允许有一定量的误差,做第一层的格律诗数据库。然后在第二个层面上,使用另一音韵库二次判别诗的平仄,非格律诗的,我们保留了原来多音字的信息,而格律诗,则以比较准确的形式显示诗的格律。结果证明这一做法是比较成功的,以后对语料库做深加工时,仍有必要使用这种算法。 王毅: 运用计算机智能化方法整理文献的方向令人鼓舞,过去流行的一句话是“电脑永远不会超过人脑”,其推理也极简单,电脑的程序是人设计的,所以人脑总高电脑一筹。但是,IBM的“深蓝电脑”可以战胜国际象棋大师,并且听说设计程序的人并不是国际象棋大师级高手。 李铎: 是这样的。人们往往停留在“电脑永远不会超过人脑”的思路上,而不知电脑有自己的特长,有自己的“思维方式”(我暂且这样称)。我申报一些新的课题,往往通不过专家的评审,原因只有一个:他们说“不可能”。我曾申报过“全唐宋诗重出提取和分析”,专家说不可能完成,后来,我们完成了,而且植入到《全宋诗分析系统》中。当香港迪志公司和书同文公司的《四库全书》全文本整理出来后,他们问我下面可以做什么,我说标点《四库全书》,他们请专家论证,结论是“不可能”,也就没法往下做。后来我分析,问题的症结在于,一旦涉及到“人工智能化”运作时,专家们往往认为是让计算机模拟人的思维,其实这仍是高速的“手工作坊”式,没有将路径的设计调整到计算机的思维方式上去,这就不可能充分发挥计算机的优势。就如自动标点古籍文献,专家们会说:“人还不能够完全正确标点,计算机怎么可能呢?”其实,出路的关键是计算机并不按人的思维方式,读懂一句话的意思之后再标点这句。我为计算机标点设计的思路是这样的:我们有已经标点的文献一亿两千万汉字,把这些文献交给计算机去自学习,它会分析统计出字与字之间的亲和度,哪些字用作句首,哪些字用作句尾,哪些字永不连用,哪些字组不可分等等古汉语的规律;再加上如《诗经》、五言诗及成语、人名、地名、职官等众多专用词的数据库,计算机以此作为它自学习的基础并生成新的知识库;然后对未加标点的古籍全面扫描切分。于是当这些古籍中每一语句的前后句,都被计算机根据已有数据库的判定原则而断句标点之后,中间字数较少的字组就自然而然成了新的“句”;尤其是这个标点的过程本身又是计算机自学习的过程,这样就可以不断扩展已有的知识库。以这种建立在计算机能力特点之上并且可以迅速生成和扩展的知识库为根据去标点古籍,不仅其速度人工不能比拟,而且可能比人的经验与知识更为准确,比如中华书局出版的二十四史标点本,可以说都是顶尖学者精标点出来的,但是其中仍有明显的错误,像《史记·项羽本纪》的一句:“项籍少时,学书不成,去学剑,又不成。项梁怒之。” (第295页) 如果是计算机来标点,它根据自己的知识库就会判定:“去”字后不再接实义动作字,也就是“去”和“学”属于永不搭配的关系,这样便会点成:“项籍少时,学书不成,去,学剑又不成。项梁怒之。”这样的例子在《汉书》中也有:“章邯复振,守濮阳,环水。沛公、项羽去攻定陶。” (第15页) 这里的“去”要和“攻”断开。 复杂一些的问题是:诸如“学书不成,去学剑”这样一些误标点句,因为是杂糅在已有的精标点数据库中,所以它们本身已成为计算机的知识源,结果就是因为知识源本身有误,所以今后计算机或许会认为“去”可以和“学”、“攻”这样的字搭配。针对这种情况,我们可以使用“频率剪切算法”,即比如在二十四史中,如果是常用字却又出现了很罕见的搭配关系,这种情况下,计算机即认为这个搭配有误,并且将其按正确规则断开,然后入库成为以后的知识源;或者再进一步,将这些罕见特例拣出,由专家们人工做出精当的判断。 有学者对我说:“有了计算机,现在做引得、做集注太方便了。”我则回答说,没有必要再做那种工作了。如果还将“手工作坊”的思维习惯带到计算机时代,只会辛辛苦苦做无用功。《全宋诗》出版后,报刊杂志上登出不少“发现”重出现象的文章,累计不过百首,而《全宋诗分析系统》穷尽式地提取了五千首重出诗。 类似的例子又比如:书同文公司在开发《四库全书》全文索检系统时,有不少学者认为无法完成,因为,它有近八亿的汉字量,虽然说使用了高科技含量的“非特定人手写识别系统”,但是毕竟识别会有误的。校对工作量自然会超乎人的想象,校对毕竟是人工的。这里的问题便是,让计算机模仿人的思维方式来工作,当然无法在短期内完成。人在校对时,是一边拿着原图形,一边看识别后的结果,眼睛累了,人疲劳了,都会将大量错误忽略过去,而且,一个人一天能校多少字呢?而书同文公司则是尽可能发挥计算机的功能,扫描后的文字全部入数据库,并与识别后的字关联。校对时,一次校一个字,如“天”字,计算机调取出全部的它认为是“天”字的图形来,校对员就快速扫视,发现错误予以纠正,纠正的结果直接入库。不论它有几亿汉字,使用的文字也就三万多字,这样一字接一字的校,自然可以很快完成,而且出错率很低。过去,我们说,校书也是阅读过程,而现在,校书者根本不读书,也不需要有多高的学术水平,就可以做“校书郎”了。 王毅: 对于目前的古代文献信息化工程,您认为主要还存在哪些问题? 李铎: 主要有四点,一是语料尚不精,语料库不标准。二是理论方法不成熟,它包含两个方面:一是计算机技术高速发展,其理论建设也在迅速完善,但是大都集中在工商业等非基础性人文研究所涉及领域(如产品模具、股市分析等等)中,而在如何研究中国古代文献方面,计算机理论的进展则极缓慢,现在的大型数据库平台对于几乎任何工业商业项目的应用来说,都可以满足,然而我们却总觉得有很多不便,需要独立开发一些插件,而且也没有什么统一标准,这样对以后的数据整合都带来困难。另一方面是面临着计算机分析时代的到来,古代文献整理、古代文学研究等相关的人文理论研究没有跟上,如字与词的问题,计算机处理文献需要计算机可以理解的语言学,我们现在的计算语言语言学研究往往是借计算机研究语言学,如人工标注字词的信息,然后用计算机统计分析,而并非由人来向计算机靠拢、用计算机的算法特点来推进语言学理论的建设。举一个现在很流行的词为例,我不称它为词,而叫“字组”——“与时俱进”,用《四库全书》检索一下会发现,没有这个“词”,但是,“与时俱”是搭配亲和度非常高的字组结构,它后面可以接“新、否、损、退、升、行、止、亢、隐、显、穷、泰、闭”等等,计算机研究需要分析“与时”、“与×俱”如“与君俱”、“与日俱”、“与时俱”、“与时俱×”这样的结构,而如何归纳总结这些现象并开发计算机的处理能力,就需要语言理论方面支持。三是人文学科研究人员与计算机专业人员不能很好的结合,我们不能要求计算机专业人员弄懂我们的专业,但是,我们的专业人员则要向计算机专业靠拢,因为这是时代的需要。四是从事这方面工作的研究人员过少,又比较分散,无法形成有体系的研究团队。这方面的成果得不到学术界的重视和承认,也会影响学者对计算机算法研究的积极性。 二 公共信息平台和个性化研究——古代文献电子信息化对古典文学研究的拓展和冲击 王毅: 除了您提到的问题之外,我还感到:随着电子文献信息量的激增,现在我们已经初步具备了一个公共的信息资源库,比如《四库全书》、《四部丛刊》、《二十五史》、《全唐诗》、《全宋诗》、《大藏经》、各种“唐宋笔记”,以及正在成书的“十通”、全国地方志电子版等等。这样一个信息量迅速扩充、研究者可以普遍获得和运用的文献库,就构成了今后大家研究工作的一个基本资源平台。这种人人都可以很容易地获得海量文献资源的状况,使一些以前不敢想、不敢做的事情变成可能,许多湮没无闻的人、事、文都通过电子信息浮现出来,可以预期,不论是文献学还是文艺学方面的研究,都将在这个平台上孕育大的突破和发展。 您刚才提到《全宋诗》重出诗的提取,这些是过去不敢想的事。 李铎: 《全宋诗》是一部大型的诗歌总集,免不了会出现重出误收现象。《全宋诗》出版后,有不少学者研究《全宋诗》的重出现象。但是,那些重出的“发现”只是偶然所得,没有人能够对《全宋诗》做全面的重出诗的统计。也就是说,这个工作所需的信息量超出了人类记忆能力的极限,哪怕是多人协同工作,也极难对《全宋诗》重出误收做出全面的统计;但是计算机在这方面显示出其极强的能力。 如果将“重出诗”界定为两首中每个字都完全一样的话,重出的数量只有实际重出的十分之一。因为有很多重出诗在编纂的过程中,会与原本有个别字的不一致。 所以我们的算法原则就是根据这个特点而设定的,它并不复杂:由计算机读取一首诗,对全诗的用字做出统计,然后对全部宋诗进行对比,发现用字相同率达到一定的比值后,便定为“疑似”,然后对其字句再进行对比,再达到一定的比值,便定为重出诗。 计算机从《全宋诗》中自动分析出五千余首重出诗,像重要诗人苏轼、欧阳修、王安石、黄庭坚等,与他人重出的均在四十首以上。如果不对此做出分析,势必会影响到《全宋诗》的使用。 有了完整的重出诗,我们便可以对它进行分析整理。重出诗可以分为三大类,一是古代遗留下的疑案,在两人或两人以上的集子里均收有该诗,如苏轼的《入馆》与张耒的《秋日有作寓直散骑舍》;这样的问题有待专家们进一步研究考证。二是前人误收,这些问题,已有不少文章在讨论,虽然同出于两人的集子,但明显属于前人误收。如苏轼的《冬至日独游吉祥寺》中有“何人更似苏夫子,不是花时肯独来”,明显是苏轼之作,却与陈襄诗重出。三是编辑失误,这占的比重相当大,如明确有作家的诗作,却与“无名氏”重出,像苏辙的《游庐山山阳七咏》出现在第15册第9950页,可是第71册第45080页“无名氏”下又出现此诗。整理《全宋诗》的重出误收将是一个新的复杂的课题,而这样的课题,则需要专家学者来完成。 王毅: 就古典文学的研究来说,至少可以分为三个层次,即校点、辑佚、训诂等纯文献的实证研究,笺注、鉴赏、年谱等文艺学和历史学研究,以及对作品所表现的对宇宙、社会、人生等思考的研究,三个层次相互关联。现在第一和第二个层次的工作已经可以比较多地依靠电子文献这个丰富的公共信息平台,交给电脑去处理了。某种意义上是否可以认为,电脑的出现缩小了研究者作为的范围呢? 李铎: 与其说是缩小,不如说是拓展。计算机只不过将属于公共信息的部分替人完成了,使人有更多的精力进行个性化的研究,他也为人的个性化研究提供了许多以前不能享有的便利。如可以利用计算机做穷尽式研究,如果结合到多维字频统计方法,穷尽式的统计也会显得非常有意义。可以对中国古代诗歌流派进行分析,如江西诗派,我们将单独建设江西诗派的作家作品数据库,根据用韵、格律、字频、词频、用典等数据,画出曲线图,由此与整部《全宋诗》进行比较分析,确认是否存在这么一个“江西诗派”;如果是,则进一步将本诗派的每位诗人的诗作曲线与总的曲线作比较,有可能将“江西诗派”的个别诗人排除到“江西诗派”之外,进而对“江西诗派”之外的全部诗人诗作进行曲线比较;也有可能会扩大“江西诗派”的阵容。一般认为,黄庭坚以杜甫为宗,而其诗格律分析与杜甫有相当的差距,这说明他的以杜甫为宗也许只是口头上而已。 全景扫描的结果用来做穷尽式的研究,又往往会生发出许许多多的新课题来。有些问题在一般的阅读模式下不易发现,但是全景扫描的结果出来以后,学者会觉得有无穷无尽的课题需要自己再进一步去做个性化的研究。 王毅: 有这样的例子吗? 李铎: 北京大学王清珍博士在做博士论文时,选择了《先秦典籍用〈诗〉现象分析》做题目,起初,导师觉得课题过大,可以做一部专著了;但是因为目前秦汉典籍的语料基本完善,计算机可以完成大量人力需要若干年才有可能完成的工作,所以这篇论文的选题也就成立。在建完《诗经》诗句数据库(包括各种异文)后,便可以对全部先秦典籍进行扫描分析。一部《左传》,标识出全部引用《诗经》的诗句仅需要十分钟。前人虽然也做过《左传》用《诗》的统计(如董治安先生在其《先秦文献与先秦文学》中就曾对主要先秦典籍的用《诗》情况作了统计),但是,与计算机统计的结果相比较,还是遗漏和错计了一部分,这部分大多是暗引,即没有明确的“诗云”、“诗曰”、“诗所谓”字样。统计全部的先秦典籍引《诗》情况数小时即可完成,而且可以由计算机对各种引诗规律进行分析。如《左传》中春秋人全部引诗共一百八十五篇次,是赋诗七十六篇次的两倍多,可见引诗较赋诗更为普遍和广泛,其原因与当时的诗教、崇古之风、“君子之言,信而有征”有关。引诗中《风》、《雅》、《颂》所占的比例不同,无论篇次和引诗句,《大雅》的数量都是最多的,其次是《小雅》。引用诗句频率最高的是《大雅》,其次是三《颂》,再次是《小雅》,引用频率最低的是十五《国风》,并不如夏承焘先生在《“采诗”和“赋诗”》一文中所说“依我的推测:它(这些民歌)(指国风)的普及性远超过《雅》、《颂》和圣经贤传”。 如通过对各诸侯国赋诗篇次的统计发现,《左传》中参与赋诗活动的国家有十个,但赋诗最多的是鲁、晋、郑,鲁国参与赋诗二十次(赋诗二十七篇次),晋国参与十八次(赋诗十二篇次),郑国参与六次(赋诗十八篇次)。齐、秦、楚虽同为春秋大国,但赋诗均只有两三次(两三篇次),宋、吴、邾等只有一次(赋诗一篇次)。就鲁、晋、齐三大国而言,固然与《左传》对三国史实记载的详略有关,而最主要的原因则是三国的文化传统不同,如鲁国诗礼之邦的特色、晋国的以礼治国和重公卿之文才、齐国尊贤尚功的经济大国特色等等。 又比如做了《墨子》引《诗》的统计比照之后,发现《墨子》一书引《诗》共十二篇次,四篇次为逸诗,八篇次见于今传《诗经》,但文字与《毛诗》完全相同者只有三篇次。通过《墨子》引诗与《毛诗》文字的异同及其与儒家典籍《论语》、《孟子》、《荀子》等引诗目的的比较分析,否定了传统的“墨子学儒者之业,受孔子之术”的观点。墨子引诗的混称《诗》《书》、在诗句中加衬字所显现出来的引诗的散文化倾向、其非乐的观点,都是理论和学术渊源不同于儒家的表现——这些就都是在公共信息平台上展开个性化研究的例子。 三 人机的互动关系与人机各自的“权界”问题 王毅: 文献资源电子信息化这个公共的学术平台已经初步形成,带来的好处显而易见。不过,在计算机能力高速发展的趋势之下,是否连历史学研究的层次和理论研究的层次也会被计算机所取代?如果是那样,人自己将安身立命于何处? 具体来说,刚才我们谈到的公共信息资源库的高速普及,同时就带来了一个不小的问题,就是我们依赖上述电子文献库和越来越完备的分析处理工具,可以轻而易举地完成五花八门的分析工作,可以轻而易举地从无数的角度(比如风格的沿革、风格的地域分布、家族文化传承的影响、作家个性特征、作家流派的特征等等)对文献进行检索,然后迅速形成“研究成果”以及相关的结论。这种异常便利和强大的“研究工具”无疑有着很大的魅力,人们难免按照它所标示出的逻辑和路径去开展自己的“研究”。但是,如果大家都遵从这种驱动力、按照这种方向形成自己的研究方法的话(您提到的利用网络资源而快速“攒论文”、“攒书”,就显示出这种趋向),那么学术作为一种科学探究、特别是人类精神世界探究的那种独特魅力将会越来越少。就是说,每个人的“研究”(至少是其方向的设计和材料基础的准备)几乎都可以交给电脑来做——可以根据电脑的优势或者干脆就由电脑自己设计出许许多多的“课题”,然后用电脑对文献进行相应的数据扫描、统计分析;将分析结果稍加整理,就可以形成一篇“论文”——比如我们可以用这种方法来“研究”诗中常用字词所反映出的陶渊明、李白、苏轼等人的各自个性特征、他们的文学理念和风格,再来比较他们之间的传承关系、彼此的异同;用类似的方法也可以“研究”《文心雕龙》、《诗品》所涉及众多理论范畴的来源、组合关系、演变过程等等,这种“研究”题目不仅不胜枚举,而且可大可小、面目层出不穷。而当这许多“研究”都可以主要通过电脑而完成的时候,那么,人性、人的心智和情感这些作为研究工作灵魂的东西到哪里安身立命呢? 由此我想到这样一个例子:电脑处理信息提供的最大便利之一,就是能够对巨量的信息进行穷尽式的分析。但是我们看到,历史上一些博学者在博闻强记上可以十分相似(他们都有几乎“穷尽”已有知识体系的能力),但是做学问的路数却可能完全不同,有的人一生只能做“两脚书橱”,成不了有思想力度的宗师;而有的人则是以自己独有的见识乃至自己对于宇宙、人生、历史脉络、政治翻覆蕴涵的巨大悲剧意义等方面的深切体会为视角,从这里出发来筛选和组织古往今来的无数史料,从中爬梳剔抉、披沙拣金——例如顾炎武的《日知录》。所以这样的著作给人们的最深感受,并不是作者如何学富五车,而是他的生命意识、悲剧意识和对历史解析力的一气贯注、流动不息。那么,这种既能够掌握大量资料、同时更能够随处体现出研究者深切的生命观和人文理念的学术研究,能否在电脑时代以更为宏通高远的方式出现?这可能是一个很大的课题。 于是又引出了两个关于“权界”的问题(“权界”这个词是借用了严复的说法):一是电脑作为研究手段,其效能到底有没有边界?常常听搞信息处理的人说“只有人想不到的事而没有电脑做不到的事”;那么在电脑能力这种几乎无限可开发性的进逼之下,如何维系人类独有的精神故园?再就是既然电脑发展的前景几乎是无可限量的,而人们又必须恪守自己独有的精神世界,那么人机之间的“权界”划分在什么地方才比较合适?这些似乎是哲学问题,与文学研究隔得较远,但说到底,文学是人们心灵和情感通过文字艺术形式塑造的归所、文学研究则是对这一归所特质和规律的说明,而如果在电脑时代,连人们心智和情感的存在理由都打上了问号,那么文学研究的意义可能也就没有了。 李铎: 计算机目前还不能完全自动去研究文学现象,但是它可以和学者互动研究,当计算机处理文献后,会生成一些虚假命题。计算机不必模拟人脑,人也没有必要去依照计算机的方式来思考,计算机还不会“会意”出文学特有的意象。有位计算机专家曾经根据诗歌中用字来分析诗的“意象”,也就是根据诗的字的特点来标志出这首诗是写什么的。这就太容易出问题,如“去年一滴相思泪,至今流不到腮边”,计算机毫无疑问地判定这是一首情诗,是写相思苦的。而它实际上是描写人脸长的长的,与相思情诗不沾边,这种误读误判就有一点让人哭笑不得的意味。 类似的例子很多,比如“北京大学中文论坛”上有位理工科的学生发贴,说“有朋自远方来”之“朋”应当是“钱”。论据是《论语》共有九次“朋”,其他八次都与“友”相接,那么不相接的当从《诗经·小雅·菁菁者莪》“既见君子,锡我百朋”之“朋”,即“货贝”。于是烟台师院的一位在线学者回答说:“孔子的这三句话,涉及温习功课、朋友来访、谅解他人,是并列关系,都是关于精神方面的;突然插进个物质性的钱来,非常不协调,所以不可能做‘钱’解。” 王毅: 这类例子都说明,决定人机之间“权界”的要素之一,就是有无对历史语境、对社会文化制度、对人生命形态和情感等等的理解和共鸣。 再举一个今人的例子。我们知道不久前去世的严迪昌先生近年来在清诗、清词研究领域取得了可观的成就,这当然与他掌握了大量相关文献直接相关,但这不是关键,更重要的是他从自己饱受的磨难(1957年以后当“右派”)中,真切体悟到了专制文化环境对学人命运和生存方式的深刻影响,由此他尤其关注于明清易代以后,那些身居政治高压之下的底层文人之命运、他们是如何尽力维系生命的尊严和文学的价值,他们与贵居庙堂者在生命意义的追求、文学理念等各个方面的分道扬镳等等问题,并以此为核心形成了他研究清诗和清词的基点。他以此为主旨的许多论文在《文学遗产》发表时,都是我做责任编辑,所以对这一点印象比较深。所以像严先生这样从自己生命经历中发现学术的意义、选择学术的方向,就具有鲜明的个性化和人文化的特点,这恐怕是电脑永远无法模拟和超越的。 因此,是否可以说电脑是在一个没有真假善恶等价值和情感判断,没有历史纵深感的平面上为我们提供信息?而对于这些经过电脑整理的文献资料,甚至是电脑分析后得出的结论,选择什么,不选择什么,对哪些更要进行质疑辨伪等等,这里面起决定作用的还是研究者个性化、人文化的东西。所谓历史信息,其实都至少包含着这样三个维度:它作为公共审视和评价对象的原初形态、它因为岁月历程中不断增减信息而形成的历时性形态以及它因为审视者无穷的个性化、心智性因素加入审视过程而出现的复杂“偏光”。有深度的分析研究,其实应该是在这三者相互渗透和互动的基础上形成的,在这种相互渗透和互动的过程中,电脑及其分析能力和方法可能永远只是一种工具而不可能成为这种互动关系的组织结构本身。 李铎: 如果说让计算机完全替代人来“思考”,从理论上讲并不是做不到,但是,我们只会接近那个目标,或许永远都达不到。这就像我们可以人工合成一些天然物品,却不能人工合成整个自然界所有的物质一样;尽管从化学分析的理论上讲,是可以人工合成一切的。另外,这还涉及一个成本问题。计算机处理文献、解决问题也有个成本问题,因为计算机并不是按人的思维方式来完成某一命题的。那么,人一下子就可以解决的问题,若换成计算机则可能需要极复杂的运算来判断。就如上面那个“朋”不做“钱”来解一样,如果让计算机自主说出学者的那几句回答,可能比计算机标点一套《四库全书》还要难,这便是不适合计算机做的课题。 王毅: 人与计算机将来的关系不是谁代替谁的问题,而是互相交流和启发,对话和融通,当然这之中并不是绝对平等的,人的主体性是第一位的,但我们也要学会向计算机学习,包括进入它的思维方式;要融合各种知识,也要补课,古典文学研究领域以后培养某些研究生时,应该开电子信息、统计学等课程,应该借鉴社会学数据统计方法等等,在知识结构、特别是在研究方法和研究路径的设计上,弥补我们学科以往明显的欠缺。 李铎: 人类发展的历史告诉我们,任何一次民族文化的融合与冲突都会带来文学的繁荣和学术的进步,东周是南北文化的融合与冲突,带来了诸子百家学说;唐代是西域文化与中土文化的融合和冲突期,有了盛唐文学的新气象;鸦片战争后,中西方文化冲突与融合,新的学术方法带来了学术的革命性进步。现在这平静的地球村里的居民似乎暂时还没有这么大规模的冲突与融合,如果有,就是要探索整个人类和计算机之间的互动关系,这也是一个时代性的大课题。计算机在古代文学、文献学等人文学科方面的广泛应用,必然会带来一场学术的革命。现在的大学生是未来的学者,他们的知识结构已比其前辈进步多了,有一些人文学科的学生,其计算机技术已达到专业水平。 王毅: 您现在正在做什么项目? 李铎: “数字中国文学史”。这是个简称,全称是“计算机辅助中国文学史教学与研究系统”。它是将中国文学史中有关作品、作家等的全方面信息整合到一个完整的研究平台中去,所以这个平台能提供比较全面的研究支撑。从应用层面上讲,它是个多维的检索系统,但是由于有庞大的数据支持,我们会将它作为一个信息平台,为学术界提供数据服务。一个分析系统可以对过去已成定论的东西作判断,如一位学者说,某种格律形式是在宋代才有的,唐诗中不见,可是我们让计算机分析,发现唐诗中有很多,只不过不是名家作品而已。同理,一位学者如果有什么样的想法,往往也需要先在分析平台上做验证。从这个意义上讲,我们开发的“数字中国文学史”可以是一个课题的评估系统。 王毅: “数字中国文学史”之后的计划想过没有? 李铎: 想法很多,如自己试着使用平台做几个案例,就是主要依赖计算机分析系统才能完成的、有典型意义的(这典型意义不是学术上的,是指成功使用计算机的)课题,如“南北方诗人用语比较”、“诗歌句法与章法”、“中国历史上进士分布与文化环境”、“职官演变过程”等等,这些课题不一定能做好,但是有这样的课题思路,便于对计算机算法研究思路进行拓展,可能主要工作还是在计算机处理古代文献的算法研究。计算机方面的工作有两项已纳入到日程表中了,一是想将宋及宋前诗词做引用量化分析,也就是,从《诗经》到宋诗,这些诗哪些被引用的次数最多,哪些句被引用得多,句与首之间建立一个量化互换关系,这样以后检索一首诗,马上可以看到这首诗被引用的历史,引用的是哪几句,这是提供公共服务用的。深入一些的,便可以用此数据研究中国古代诗歌发展流变的历史,诗人之间影响关系,诗风与时代特征等等。上个世纪以来的中国文学史编纂,有很多不是以文学史历程中主要的继承关系为基准来做评价的,包括对许多诗人影响的评价等等,这样就会因为一些研究者个人的或时段性等比较偶然的原因,而左右对文学史研究对象的评价,钱锺书先生《宋诗选注》就是一个大家知道的例子。所以我们这个“引用量化分析系统”就会将客观上确对后世影响大的作品提取出来,可以为文学史编写、文学史研究、诗选提供有价值的参考。二是研究字频统计对学术研究的意义,这项工作最好是由计算机专业或者语言学专业的人来做,但是目前没人做,而研究中国文学史、研究作家作品、古代文献考证等大型系统工程又需要字频理论深入发展。 总之,古代文献电子信息化工程与古典文学研究,通过相互促进而取得的进步才刚刚开始,无数更具魅力的课题和未知领域,正等待着我们去探求。 (收稿日期:2004年8月6日) |