我国从20世纪80年代开始尝试中文古籍数字化,经过大约20年的探索与开发,已取得了较为显著的成果。未来如何使古籍数字化工作进一步走向深入是专家学者重点讨论的课题。其中,古籍数字化资源的深度开发应是今后数字化工作的重点之一。所谓古籍数字化资源的深度开发,是指借助于计算机技术、中文信息处理技术等新兴技术手段,对各类古籍数字资源所蕴涵的多重信息进行尽可能充分的揭示和组织,使其成为一个立体的文化学术信息知识库。本文试从开发的必要性与可行性、开发的主要内容和技术等方面对此问题加以论述。 1 深度开发的必要性与可行性 古籍数字化的目的和作用不仅是保存与普及传统文化,同时还应为学术研究服务。目前,文史哲等领域的研究人员作为古籍数字资源的主要使用者,已不满足于在计算机上对古籍做一般的浏览阅读,而开始对古籍数字化提出了新的要求,希望借助于先进的技术手段,使数字化古籍具备更丰富多样、更符合学术研究需要的功能,从而支持甚至引导更深层次的研究。古籍数字化资源的深度开发将使文献不再是平面的、孤立的资料,而是成为一个立体的文化学术信息知识库,这一方面可使研究人员充分享受到现代数字化技术给学术研究带来的便利,在资料的搜集、整理等基础环节上节省大量时间;另一方面也使其有可能从中获取新的思路和研究方法,开拓新的研究方向与课题内容。 强调古籍数字化资源的深度开发,意味着对资源开发者在技术和思路上的高要求,这也将有效地限制诸多数字产品开发商的一拥而上、匆忙上阵,从而减少因低水准重复建设造成的浪费。因此,它对于目前中国正在进行的古籍数字化工作而言,具有突出的现实意义。 过去20年古籍数字化实践积累的经验和在技术方面取得的进步,为今后的资源深度开发奠定了基础。国内至今已有至少10余所高校和研究机构根据教学和研究工作需要,进行了古籍数字化项目研究,建立了专门的数据库,如中国社会科学院的《全唐诗》、《先秦汉魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等,北京大学的《全唐诗》、《全宋诗》,南京师范大学的《全唐五代宋词》,河南大学的“南宋主要历史文献”等数据库。各大型图书馆则根据馆藏特色,进行了古籍数字化的规划和实施,如中国国家图书馆的“碑帖菁华”、“敦煌遗珍”等特色资源库,上海图书馆的“中国古籍善本查阅系统”等。一些致力于古籍数字化的商业机构也为此项工作付出了大量的心血和努力,如北京书同文数字化技术有限公司的《四库全书》、《四部丛刊》电子版等。 这些项目推动了古籍数字化工具的开发和完善,尤其是《四库全书》电子版的问世,标志着中文信息处理技术实用化已取得重大突破,如基于扩展的CJK(CJK+)的文字平台,基于OCR技术的古籍版面分析、文字识别和辅助校对软件,基于CJK+的、嵌入简繁异体字关联的全文检索引擎等技术难关的解决,保证了古籍文字内容输入的快速和准确。同时,研发人员还在资源的深度开发上进行了初步的探索、实践,实现了部分文字工具与数字化实体内容的挂接[1]。 2 深度开发的主要内容和技术 目前,古籍数字资源的深度开发尚处于起步阶段,有待于加强。今后的开发至少可以包括以下三方面: 2.1 提供基于超文本的立体阅读环境 数字化古籍不应只是纸张版本的简单翻版,而应采取多种方式和技术手段,以原文本为中心进行发散和延伸,为使用者提供基于超文本的立体阅读环境。 2.1.1 采用超链接等技术,实现原文与相关知识点之间的链接 古籍中的世传经典著述通常有古代著名学者、训诂专家为其注疏,注疏包括传注、章句、义疏、集解、音义等各种不同类型,其中包含着丰富的内容,不仅有对字词句及篇章文义的注解,也有对名物制度、成语典故的诠释,是后人阅读和理解原文的重要纽带,也是继续研究的前提基础。在原文与注疏之间进行链接应是拓展古籍阅读内容的有效和必要方式。除此之外,链接的内容还可包括:文献本身相关内容之间、相关文献之间以及文献与相关网站之间的链接等。国家图书馆在所建特色资源库“敦煌遗珍”中即尝试链接了有关敦煌和丝绸之路、相关文献收藏机构以及文物保护的网站,以丰富读者对数字化敦煌文献的认知,推进敦煌学研究。 2.1.2 在古籍文献的不同版本之间建立起联系 包括数字图像版与文本版、不同文本版之间的对照和切换。数字图像版可以展示版本类型、版刻特征、字体、墨色等信息,满足版本研究、书史研究、文物鉴定等多种需要;不同文本版的切换则便于异文的对照和批校内容的互补互证。 2.1.3 在古籍数据库中载入辅助性工具 如字词典、历史年表、电子地图等。这类链接在个别古籍数字化产品中已部分得到实现,如《四库全书》电子版中,带有单字字义查询、古今纪年换算、干支/公元年换算、八卦·六十四卦表等辅助工具。这样的设计使得研究者不需要为了弄清某些繁琐细碎的知识点再另行翻找资料,而可以依靠现成工具迅速进行确认。这种载入辅助性工具的做法值得继续推广。 但是,现有的辅助性工具还很有限,多处于较低层次,只能帮助解决研究中最粗浅的一些问题。因此,今后应根据各类古籍文献的特殊情况,开发更具专业性、系统性和针对性的工具,尤其是建立相应的知识支撑系统或专门的辅助数据库,比如有关历代官制、兵制(或谓军制)、科举制及历代政区等的知识系统。历代官制系统可包括历代文武官的勋级、俸禄、章服等内容;历代兵制系统包括历代兵种、军衔、军权等;历代科举制系统以唐代至清末各时期的考试科目、应考人、考试内容、考试程序、考后出路等为主要内容;历代政区系统包括各朝代的首都、辖区范围和相应的地名。通过这些知识系统,正确反映各个时代的政治、军事、文化、地理等方面的信息,为研究者提供具体的时空坐标和背景资料,以便及时解决他们在古籍阅读过程中产生的疑问,甚至有可能帮助挖掘出原本隐藏在文献背后的关联。此外,如果今人在某一方面的考辨和研究成果已具有一定规模,也可考虑将其独立开发为专门的数据库,与典籍文献挂接。近年,国家图书馆在实施馆藏敦煌文献数字化项目过程中,即根据学界的需要,准备编辑和完善以下数据库:①敦煌文献研究论著目录(含中、英、法、俄文等);②敦煌吐鲁番学论著目录(含中、日、西文);③丝绸之路地名规范文档数据库;④敦煌吐鲁番学学者档案数据库[2]。因此,使用者不仅可阅览由数码扫描制成的敦煌文献高清晰图像,还可从与之相连的各类数据库中获取有关敦煌历史、现状等的信息,从而帮助理解文献内容和深层内涵。 2.2 建立强大的智能化检索系统 建立强大的以全文检索为基础构造的智能化检索系统,将大大节省研究者在文献检索、辑佚方面所费的时间和精力,还将极大地启发和扩展其研究的广度与深度。 借助于现有的检索技术,已可以实现包括条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种类型的检索。其中属性检索对于古籍使用者具有突出的价值和意义,可满足其特定的需要,比如以写作年代、地点、题材、体裁、事件等作为属性,即可汇集撰写于同一时间、地点的文献,采用同一题材、体裁及记载同一事件的文献。 根据不同类型文献的自身特点,今后应进一步有针对性地开辟各种特殊的检索项目。20世纪90年代中期,北京大学计算语言所与古文献研究所合作开发了以全宋诗为对象的古诗研究系统,该系统提供的检索属性除了写作年代、地点之外,还根据诗的特点设置了诗体、韵、主题等。系统从录入的诗作中自动抽取信息,构成基本信息数据库,再结合系统的古诗规则库(包括诗体的构成方式、押韵方式、平仄配置原则、主题常用词等),实现对于基本信息数据库的智能化检索。利用这些属性检索,研究者可以深入开展古诗格律研究、诗人风格研究等[3]。古诗研究系统在检索功能的开发和设置上的经验可以为古代词、曲的数字化资源的深度开发提供参考借鉴。以词为例,词作为一种音乐化的文学样式,与诗互有异同。词依曲调为词调,每个词调在字数、句数、平仄、用韵、分片上都有规定。在相应的系统中可考虑设置词调名称(即词牌)的检索,并要注意通过规范控制先行解决词调的“同调异名”、“同调多体”等特殊问题。“同调异名”指同一词牌在流传中派生出不同的称谓,如“念奴娇”又称“百字令”、“大江东去”、“酹江月”等;“同调多体”即正体外出现若干别体,在结构、用韵、句式等方面有所改变。另外,不同词调在结构形式上,有单调、双调、三叠、四叠之分;根据字数篇幅来分,有小令、中调、长调之别。因此,还可设置词调结构、长短词等属性的检索。在用韵上,不同词调各有较固定的押韵格式,但词韵较诗韵宽,押韵方式也不同于近体诗,词的用韵、格律研究同样需要以相应的检索及后续分析作为支撑。 在传世的古籍文献中,除了诗、词、曲等文学作品受到较多关注之外,许多其他类型的文献,对于研究者而言也具有非常重要的学术价值。比如有研究者指出,类书在所有文献中具有突出的优势,即汇集资料丰富而系统,是最需要也最适宜实现数字化的品种之一;今后应构建大规模类书资源数据库,而不能局限于单种类书,并且其检索系统应体现类书的特点,具有引书检索、辑佚检索、校勘考证检索等特殊的检索功能[4]。研究者的这一分析揭示了古籍数字化深度开发中存在的薄弱环节和问题,为今后的工作提出了较为具体的设想和思路。此外,我国古籍文献中有部分文献(如谱录类文献)还带有各种图像资料,像《啸堂集古录》、《考古图》、《宣和博古图》等,都编录了各代钟鼎彝器若干种,附有描摹的器形和款识铭文。根据这一特点,可考虑增设“图像”这一检索属性,便于汇集文献中的图像资料以供研究。 2.3 提供科学、准确的统计数据和信息分析 对有关古籍内容及各类检索结果进行计量统计,提供科学、准确的统计数据和信息,是对古籍数字化资源的内容补充与增值。统计结果作为许多后续研究的基础数据,不仅可以改善研究者的研究条件,而且还会带来研究思路、研究方法的变革。 20世纪90年代中期,北京大学开发的古诗研究系统即专门设置了统计功能,并以图、表等直观形式显示。其中包括:诗作统计(按年代、地点、诗体、主题等分门别类地进行统计)、汉字统计(各种字词信息如字数、字频、词频的统计)、总体统计(对于全宋诗整体的诗作和汉字统计)。各类统计数据和信息如果具有一定规模,可进一步为它们单独建立统计知识库。90年代末,北京大学承担开发的国家社会科学基金项目“古诗计算机辅助研究系统及其应用”,尝试对语料进行深加工,并建立了包括词汇知识库、作者信息库等在内的相关的统计知识库,使统计分析功能成为该系统的一大特色。系统在对所有600多万字诗歌语料进行词汇切分、建立基于词的全文索引的基础上,统计提取了词汇的句内共现关系、对偶位置上的词汇对仗关系以及作者的词汇引用关系等[5]。这些探索虽然是以古诗为研究对象,但其方法和经验对于今后其他类型古籍文献的数字化深度开发是有借鉴意义的。并且,相关研究者也已意识到:目前对以古诗为代表的古籍数字化资源所做的统计分析主要是基于词汇的,但作为语言本身还有更高层次的结构,如句法结构、篇章结构等,仅在词汇一级进行分析显然不够。今后,该领域的研发还有很长的路要走,我们应积极引进国内外在“知识发现”领域的一些新成果、新方法,比如基于单词的词频统计方法、基于短语的词频统计方法、基于概念的知识发现方法、基于概念的词频统计方法等[6],进而检验其是否适用于古籍,以寻找更科学的途径。 各种统计数据和统计知识库为研究者展示了多个角度以供其分析问题,比如从多种词汇使用现象的统计中考察作者的创作风格,从作品中人名、地名的统计中分析作者的交游与游历情况,从某一时段词汇的引用频度变化中探讨词汇的时代分布和变迁。今后的古籍数字化开发,应设法努力在各个统计知识库之间建立更密切的关联,以便于研究者将各种统计结果相互结合、参照、对比,获得更大的思考和研究空间。比如,把作者一生的游历地点与各时期撰著数量的统计相结合,与作品用词用语变化的统计相结合,与整个时代同类文献数量的统计、语言变化的统计相结合,就能对某一作者在整个时代中所处的位置、所受的影响、撰著的背景等有一立体的认知。就目前而言,数字化古籍在包括统计知识库在内的辅助性工具的关联度上仍显欠缺,各种工具相互分离,没能充分发挥应有的效用。 古籍数字资源的深度开发是古籍数字化工作走向深入和取得实质性进展的具体表征,它需要联合多方专家学者的力量才能逐步得以实现。从古籍数字化的性质来看,它属于古籍整理和学术研究的范畴,因此要以文史哲领域研究者的意见为主导,来规划数字资源开发的具体内容和走向,探寻能够深入揭示和组织各类古籍所蕴涵信息的途径或角度。从古籍数字化工作的定位来看,它又是数字图书馆建设的重要组成部分,因此要积极采纳图书情报学专家的建议和构想,依循数字图书馆的理想发展模式,使数字化古籍具有开放性、多层次性和体系化的特点。从古籍数字化的实现手段来看,它最终依靠新兴的计算机技术、网络技术等来帮助完成种种设想,因此离不开计算机等技术领域专家的大力扶持。古籍数字化资源的深度开发有赖于跨学科的合作,与此同时,它也为跨学科合作基础上的理念创新、技术创新提供了良好的平台。 【参考文献】 [1] 张轴材.中文典籍数字化走向之蠡测.[2006-02,08].http:// www. unihan. com. cn/gsxw.asp?a=28#part28. [2] 孙利平,林世田.中国国家图书馆敦煌文献数字化与国际敦煌学项目[2006-04-05].http://www. nlc. gov. cn/old/wjls/html/ 8_14. htm. [3] 刘岩斌,俞士汶,孙钦善.古诗研究的计算机支持环境的实现.中文信息学报,1997(1):27-36. [4] 李国新.中国古籍资源数字化的进展与任务.大学图书馆学报,2002(1):21-26. [5] 胡俊峰,俞士汶.唐宋诗之计算机辅助深层研究.北京大学学报(自然科学版).2001,37(5):727-733. [6] 安新颖,冷伏海.基于非相关文献的知识发现原理研究.情报学报,2006(1):87-93. 原载:《图书情报工作》2007/03 (责任编辑:admin) |