语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 书目文献 >

古籍书目数据库建设中的用字问题

http://www.newdu.com 2017-10-30 中国文学网 范瑞娥 参加讨论

    浩瀚的古籍是中华民族传统文化的主要载体,是沟通古今的桥梁。建立全国统一的古籍书目数据库,近年来已经成为图书馆界及古籍和计算机专业人士所关注的一件事。而目前古籍书目数据库建设面临的问题很多,本文着重谈一下古籍书目数据库建设中的用字问题。
    一、已有的古籍著录标准关于用字的规定尚欠妥善,并出现一些互相矛盾之处[1]
    1996年出版的中国文献编目规则编撰小组编辑,全国情报文献工作标准化技术委员会、中国图书馆学会推荐使用的《中国文献编目规则》及原来出版的国家标准《古籍著录规则》均规定,古籍著录用规范的繁体汉字著录。首先,“规范的繁体汉字”的提法是不妥当的。因为我国《出版物汉字使用管理规定》第三条中明确指出:“本规定所称的规范字,主要是指1986年10月根据国务院批示由国家语言工作委员会重新发表的《简化字总表》所收录的简化字;1988年3月由国家语言文字工作委员会和新闻出版署发布的《现代汉语通用字表》中收录的汉字。”“本规定所称的不规范汉字,是指在《简化字总表》中被简化的繁体字。”很清楚,国家法定的规范字是简化字,法定的不规范字是在《简化字总表》中被简化的繁体字。规范性与繁体字不能匹配,这是现代汉字学知识和国家现行文字政策的基本常识。因此,“规范的繁体字”是一个不符合国家现行文字政策规定的、逻辑语义互相矛盾的、不科学的概念。所以,古籍著录规定用“规范的繁体字”的提法,显然是不妥当的。另外,两个规则本身所举的所有示范性著录文字却毫无例外地全部使用简化汉字,这与规定本身是互相矛盾的。
    二、当前在古籍书目数据库建设用字方面的两种观点
    一种观点认为,应使用繁体字。理由有如下三点:第一,由于古籍本身使用的是繁体汉字,所以从客观著录的角度来说,应该使用繁体字。第二,从文字发展的角度来说,中国汉字源远流长,几千年来文字意义变迁很大,很多字由于原来语境的消失,字义发生了变化,甚至已经不再使用,产生了通假、异体、古今、繁简等一些繁杂关系。虽然简化字科学易用,但它与繁体字不能做到字义上的一一对应,所以使用起来会有许多不妥之处。第三,在某些领域使用繁体字不会影响简化字的推广。因为古籍无论有多浩瀚,它与今天及未来的图书出版发行量相比,都是极为有限的,不会妨碍简化汉字的传播与应用[2]。所以,为了客观、准确地表现古籍图书情况,应该使用繁体汉字。
    另一种观点认为,古籍著录可以用规范的简化字。理由有以下四点:第一,书目数据库只是一种存储者和检索书目信息的工具,只要能达到存储者和检索的目的就可以用简化字著录。第二,用规范的简化字著录符合国家语言文字工作政策。汉字由繁到简本来就是汉字发展的总趋势,而且得到国际社会的承认。联合国文件的中文文本使用的就是规范的简化汉字。用简化字著录古籍,是对古籍的宣传,符合国家语言文字工作方针。而且,使用简化汉字,适应广大中青年读者的阅读能力,通过简化字检索到繁体字古籍,还能丰富他们的汉字简化知识。第三,用简化汉字著录古籍有利于图书馆综合性书目数据库的建立。目前《中国机读目录格式》规定使用的字符集是《GB2313-80信息交换用汉字编码字符集·基本集》和ISO10646(即GBK字符集),这两个字符集已经在国际标准化组织登记。读者在研究、整理古籍时,不仅要阅览古籍本身,还要查阅有关它的所有信息,包括不同版本以及后人对其研究、评价等各方面信息。若古籍书目数据库的编制与综合书目数据库脱节,就会造成检索时无法一次获得所需的全部信息。如果古籍著录和普通图书著录共用一个字库,就有利于古籍书目数据库和普通书目数据库互相融合,建成统一的综合性书目数据库,便于书目数据的管理和检索。第四,用简化汉字著录古籍不会影响对外文化和信息交流。我国是汉语使用的主要国家,我国推行简化汉字的政策,在国际上有很大的影响,新加坡、马来西亚等国已经将我国的简化字作为他们华文的规范汉字。许多全部用简化字和规范汉字出版的刊物正在对外进行国际文化和信息交流[3]。因此,用简化字著录的古籍书目数据库也不会影响对外的文化和信息交流。以上四点是用简化字的优势,但也有其弊端,如可能出现误用简化字、生造简化字、繁简混用等错误,这需要在工作中认真地去把握。
    三、目前古籍书目数据库建设中的用字存在混乱现象
    目前使用的各种字库太小,文字数量不能满足古籍书目数据库建设的需要,而且各种字库不统一。由于古籍文献年代久远,其所使用文字是与现代标准汉字不同的繁体字,同时含有大量的异体字、罕用字。国内常用的国标代码(GB2312-80)仅有6763个汉字,处理现代文献尚可,而对采用繁体字进行古籍编目则较为欠缺,而且不能包容,不能互通,虽可另造新字,但对于网上运行没有任何意义。此外,现有繁简字转化系统是一对一的关系,它不能解决繁简字对应关系中大量的多对一、一对多的问题,在把用简化汉字输入的编目数据转化成繁体字再输出时就容易出现错误。有的图书馆古籍书目数据库建设使用的是我国台湾省的一个字库——INNOPAC系统,它收入了8万4千个汉字,但是因为它不是国家规定的标准字符集,一般联网计算机如果没有安装这个字库,就无法实现资源共享。
    四、目前在多简繁字的转换方面有待探索和完善
    简繁汉字的转换是古籍书目数据库建设及古籍整理的重要课题,目前对这种多简繁字的转换大体有三种方法[4]:
    (一)人工识别法。首先分别给简化字所对应的各个繁体字注出读音和义项,说明其音义适应范围,以便在字理上掌握其间的关系;其次开列词语匹配表,具体指明词语搭配中简化字应转换为哪个繁体字,通过实例来辨识。
    (二)计算机半自动转换——词语匹配法。词语匹配法是在“人工识别法”基础上进行的。先设置词语匹配表,让计算机根据匹配底表自动查找,对得上就可以自动转换。
    (三)计算机智能转换。上述两种方法中所用的词语匹配法有两个缺陷:一是成功率与词语能否穷举有关,而穷举则是难以完全做到的;二是词语底表收集的是常用的固定搭配,对语言中的灵活运用,难以实现匹配转换。所以,有人曾探索计算机智能转换。如广西古籍研究所的一位研究生曾探索过“H规则引导转换法”,针对一对多简繁字各字句法特点和语义特征加以规则化处理,给计算机提供启发式规则,以引导计算机自动进行句法和语义分析、自动切分,选择正确的目标字进行转换。但用计算机对古代汉语进行语词切分,要比处理现代汉语困难得多,所以这种方法还仅是一种假设,有待于进一步探索和实验。总之,对实现多简繁字的转换目前还没有一套比较成功的系统。
    参考文献:
    [1] 李荣慧.古籍书目数据库建设面临的问题及对策[J].图书与情报,2000(1):45-48,56.
    [2] 范月珍.浅谈古书籍书目数据库的建设[J].山西科技,1999(3):32-33.
    [3] 秦淑贞.论古籍书目数据库规范化[J].中国图书馆学报,1997,23(1):79-82.
    [4] 林亦,林仲湘,肖培.利用计算机整理古籍必须重视简繁字的处理[J].广西大学学报·哲学社会科学版,1996(2):60-64.
    [范瑞娥:河北师范大学(西校区)图书馆。]
    原载:《河北科技图苑》2002年第15卷第6期 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论