在古籍数字化建设方面,如数据规范问题、汉字标准问题、分类问题曾经反复讨论,但始终没有达成一致的见解乃至解决方案,大家在深切感受到不便的同时,又苦于无法寻找到切实的解决方案,这其中一个深层的矛盾在于:表面看这是一项学术基础建设工程或信息化工程,而在操作层面,它往往被嵌入到制度环境或市场环节中。 古籍数字化建设同所有信息化建设工程一样,需要充足的资金支持。一般情况,仅有建设热情的个人是难以负担的,所以充当主角的只能是科研机构或从事商业运营的开发商。由科研机构组织的古籍数字化建设,通常是以项目形式申报,在整个项目流程中,会受到来自所属组织及机构内部的业务基础、募资能力、人员素质、管理效率乃至做事风格等多种因素的影响,很多时候,这些因素可以归结到行政组织的某些固有特性上,而不得不有所掣肘。因此,往往某些具体技术问题(如工作平台的选取、工程进度的安排等),都是多方博弈的结果。 对于商业运作的公司而言,制度环境相对简单、技术力量也较学术单位强大,但他们在项目过程中,每一步都会有成本—收益的考量,这是商业公司的性质所决定的,当学术目标与商业利益发生冲突的时候,往往被放在次要位置。而古籍数字化的最终目标是为知识发展服务,因而,上述冲突总是很难避免。 不过,这两只力量毕竟是古籍数字化建设的主力,虽然存在诸多不尽如人意的问题,但数字化建设还是在发展,这是大势所趋。随着商业公司同学术机构合作的不断深化与扩大,也产生了一些经济效益和学术影响兼备的成果,如书同文公司开发的“四库全书”“四部丛刊”,国学公司开发的“国学宝典”;学术机构、包括图书馆单位在较好地协调各种因素后,也贡献了许多精品,国家图书馆的敦煌文献、历代拓片数字化项目,北京大学中文系的全唐诗检索系统、全宋诗分析系统,即是其例。 单从总体规模看,我们在十数年间已经取得了相当的成绩,古籍数字资源从无到有,逐渐发展,就数据量而言,根据专家统计,我国古籍的数量超过20万种,已经数字化的古籍恐怕已近其半,大型类书或丛书如《四库全书》《四部丛刊》《古今图书集成》《续修四库全书》《大藏经》《太平御览》都已数字化,一些珍本古籍包括《讳书集成》《北京图书馆珍本年谱丛刊》等也被陆续数字化。 但将古籍数字化做为一个通盘的工程项目来看,我们会发现有许多问题。首先,这些数字化资源格式并不统一,底层格式主要是文本和图片格式,但最终实现的格式却因建设方和生产工具的不同,呈现为txt、word、pdf、djvu、tiff、超星格式等,几乎涵盖所有现行的数字化工具。其次,检索平台和检索方式不统一,这些数字化资源大多需要纳入数据库,以便调用和检索,但各家所用数据库很不统一,access、mysql、sqlsever都有。有时使用同样的数据库平台,也会因为开发商的再次技术加工(以知识产权为目标)而形成人为的数据格式差异,从而给数据兼容及随后的跨库检索应用带来极大不便。另外,由于分散作业,各自为用,我们至今无法完整地了解哪些古籍已经被数字化,更无法知晓其数字化格式、利用程度,这一方面造成了数不清的重复建设,一方面又使这些有用的学术资源无法充分发挥其作用。 应当认识到,我们今天从事的古籍数字化建设是一项惠泽当下,福被来者的千秋工程,尽管受到各博弈方的影响,但是这一工程的最终指向仍应定位于为知识发展服务,这一目标在建设知识型社会的今天,并非不可能同商业利益或制度环境形成协调。抱着这样的信心,笔者试提出以下三点期望同时也是三条建议,旨在现有条件下整合古籍数字化资源,并促进未来古籍数字化建设的公共平台。 1.数据格式有待统一———基于元数据 统一数据格式也许是一个谈虎色变的话题,但笔者这里提出统一,并不是主张把所有古籍文献内容统一为文本或图像格式,在现有条件下,把全部古籍电子格式文本化也不现实。笔者所谓的统一,是基于目前图书馆界和国外学术资料信息化的普遍经验,将资源对象的语义信息统一为元数据格式。 元数据是用来描述数据的数据,故称“元数据”。以最为通用的DC元数据即“都柏林核心(DublinCore)元数据”为例,该元数据规范包含15个最基本的元素及许多拓展元素,用以描述资源对象的语义信息。这15个元素是:题名(Title)、创建者(Creator)、日期(Date)、主题(Subject)、出版者(Publisher)、类型(Type)、描述(De鄄scription)、其他责任者(Contributor)、格式(Format)、来源(Source)、权限(Rights)、标识符(Identifier)、语种(Lan鄄guage)、关联(Relation)、覆盖范围(Coverage)。元数据可以扩展定义,就是说可以根据每一不同对象来定义一套不同的元数据,在保证开放性的同时,它又采用了规范的语法,使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。 对古籍数字资源进行元数据标引,有诸多好处:首先,它不必对现有资源进行格式改造,只是加以外部属性描述;其次,这将为全部古籍数字化资源的调查和格式转换或再度开发创造统一的数据环境(元数据元素集中定义了相关标识字段)。随着学术需求和开发建设的不断发展,可以想象,对现有数字古籍资源做元数据回溯标引也将势在必行(类似对图书馆馆藏的回溯标引一样)。 2.资源分布需要普查 五年前,中国社科院历史所陈爽先生曾在《文史知识》上发表《网络文史资料库概览》《网络古籍全文检索系统简介》两篇文章,很受欢迎,各大学术网站都纷纷转载。五年中类似这样介绍古籍电子资源或网络资源的文章出现不少,许多有心的学者和热心的网友都做出了贡献。但遗憾的是,至今尚没有一份完整的古籍数字化资源普查报告,我们对科研单位、商业公司或个人总共做了多少工作,古籍数字化的覆盖面、分布情况等无法获得全面的了解。 这份工作的必要性和重要性无须赘言,它有如学术资料的索引一样,将对我们更好地利用和建设古籍数字化资源将产生巨大的作用。但是,这项工作也存在相当的困难,否则也不会持久无人问津。总结起来,困难主要在于:第一,开发单位分散、信息交流机制不健全、存在相互保守心态。第二,数字化资源流散情况复杂,许多早期建设的资源由于格式、利用率等问题,很容易被人遗忘而逐渐流失,而且网络资源的变更或自然流失更是一个普遍现象。据学者研究表明,因特网上的资源,在6个月中,有12.2%的网站和20.5%的网页不能被访问到;1年后,分别上升到17.7%和31.8%。每周有0.5%的网页和网站消失,6个月和1年内网站发生变化的比率分别为97%和超过99%,对于网页,这组数据分别为98.3%和99.1%(见段宇锋:《网络链接研究中的制约因素分析》)。第三,这项普查工作是一项基础工作,很难获得直接的经济效益或被纳入学术成果,因而很难吸引相关机构来从事,而其费时费力又显然不是个人能够完成。 这些问题,无论国内外,都普遍存在,但是否无法克服呢?笔者认为不然。在技术支持上,我们完全有足够的支持,通过网页跟踪技术,可以相对克服网络资源自然耗散问题,通过简单的数据库技术和元数据定义,可以实现资源定位整合与持续更新,关键是组织保障和经费支持。而在这些方面,笔者以为恰可以发挥现有体制的某些优势来克服。例如,通过古籍整理委员会或大型科研机关或某个行业、学术联盟的力量,通盘规划,完全可以在较短时间内完成这一普查,并由调查单位维护更新,而建立长效机制的最好办法莫过于成立行业联盟。这就引出我的第三个建议。 3.有必要成立业界联盟 成立一个集聚科研单位、图书馆、专业开发公司及有相关经验的团体、个人的古籍数字化业界联盟,不仅有助于实施诸如古籍数字化建设普查这样的大型公益项目,同时可以起到引领行业发展、避免重复建设、统一业界规范等多种作用。 众所周知,古籍数字化建设中,现有字符集不够用是一个瓶颈,无论是GBK还是方正超大字符集,其中臆造出来的毫无用处的字符太多。为什么会出现这样的情况?主要在于设计方不知道实际需求,GB2312的六千多个汉字可以满足一般文献的需要,但对于处理古代典籍到底需要哪些字符,没有实际的古籍数字化经验,很难有清晰的认识。业界联盟的建立,可以集中经验,共同制定一个相对稳定、合理的字符集标准。 在文献信息处理过程中,每一步都将会涉及标准问题,如异体字的统一、信息的组织分类、叙词表(关键词)的确定等环节无不如此。数字化古籍本质上如李铎先生指出的是“公共信息”产品,则其目的是更多的人能够使用,此时我们就不能使用“谁做大做强谁就是标准”的简单市场思维,而应遵循共享共赢的公共理念。多年来,成立业界联盟的呼声始终不断,但一直未能实现,与大家缺乏这种公共理念是有关系。 原载:《中国社会科学院院报》2007年10月11日 (责任编辑:admin) |