语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 其他分支学科 >

试论中古汉语语料库佛教文献分词规范


    摘 要:在国家标准《信息处理用现代汉语分词规范》基础上,兼顾中古词汇的过渡性、佛教文献的特殊性、人工分词的操作性、分词软件识别的便利性等多方面因素,讨论了中古汉语语料库佛教文献的词语切分问题,建立了针对中古佛教文献的分词规范:以分词单位作为中古汉语语料库的基本单位;判定分词单位适当从严;依据意义标准、频率标准、语感标准界定词与非词;如何切分佛教文献中的外来词、同义复词、多音节词、专有名词, 以及动补结构的词语、过渡性质的词语。
    关键词:中古汉语;佛教文献;语料库;动态义项库;词语切分
    作者简介:化振红, 男, 南京师范大学文学院教授, 研究方向:汉语言文字学。
    基金:国家社科基金重大招标项目“汉语史语料库建设研究” (10&ZD117); 江苏高校优势学科建设工程资助项目 (PAPD) 阶段性成果。
    近20多年来, 汉语史语料库已经成为词汇、语法、语音等领域不可或缺的利器。从最初的仅能搜读文本的平面型语料库, 到后来可以多层级组合检索的XML文档数据库, 再到目前的标注型语料库, 汉语史学者都寄予厚望并付出了不懈的努力。以国家社科基金重大招标项目“深加工中古汉语语料库建设研究”为依托的中古汉语语料库 (MCC) , 主要包括中古语料的文本输入、词语切分及词性、义项、语法地位标注等工作。在整体进展顺利的同时, 也遇到了许多相当棘手的理论和技术问题。其中, 难度最大的就是人工分词和自动分词中的分词规范问题。如孙宏林所言:“首先必须要有一个分词词表, 而制定这样一个词表又需要有一个分词规范。要制定分词规范, 就需要有判断词与非词的标准。”1由于古代汉语词汇自身的复杂性, 尽管汉语史语料库建设已经成为学界普遍关注的前沿性课题, 但对汉语史语料库建设具有指导意义的词表、分词规范却迟迟未能问世。本文拟从汉语词汇理论和语料库操作实践相结合的角度, 对中古佛教文献的词与非词、词表、分词规范等问题进行比较深入的探讨, 希望得到方家同好的指正。
    一、佛教文献词语切分的理论基础
    中古汉语语料库遴选文献的原则是语料样本的代表性、文本类型的平衡性、语料的关联度和区别度、文献的特色性。其中, 语料样本的代表性最为重要, “所选语料必须既能从整体上反映中古汉语的真实面貌, 又能够展示中古汉语局部的各种比较突出的特点。”2根据这些原则, 我们确定以佛教文献代表口语化程度较高的中古语料。已经入库的有《中本起经》《杂譬喻经》《撰集百缘经》《生经》《贤愚经》《杂宝藏经》《十诵律》等汉译佛经作品, 《洛阳伽蓝记》《法显传》《观世音应验记》等中土佛教作品;完成了前期工作、即将入库的有《高僧传》《经律异相》等:共12部, 122万字, 占全部语料的13%左右。
    (一) 词语切分的总体思路
    所谓“词语切分”, 指按照特定规范, 对汉语中连续的字串进行切分并重新组合成词串的过程3, 这是中文信息处理特有的基础性工作。
    中古汉语语料库的词语切分, 包括人工切词→机器学习→自动分词→人工校正四个环节。最初的人工切词, 由组内成员利用Access操作系统和义项库对部分语料进行词语切分, 拟定并修改分词规范。机器学习环节, 利用人工切分的语料样本对自动分词软件多次训练、改进;经过自动分词的语料, 由组内成员人工核查、修正其中的问题, 程序研制人员根据反馈意见改进分词软件。随着人工样本10万、30万、50万、100万、150万的递增, 自动分词正确率达到了90%左右。目前已经进入人工校正阶段, 全部语料完成了自动切分, 正在对自动分词结果进行人工校正, 修改其疏漏之处。
    词语切分过程中, 最为关键的是自动分词、人工校正环节。
    1990年代以来, 词典分词、理解分词、统计分词、组合分词等数十种自动分词法陆续问世1。语料库切词过程中, 通常采用以一种方法为主、辅以其他方法的综合分词法, 如南京农业大学的农业古籍数据化整理项目使用了词典分词与N元语法相结合的分词法2。现代汉语语料库一般采用词典分词法, 即机械分词法:利用各种词典编制一个词表, 贮存在电脑系统中, 根据词表对需要切分的词语作出判断3, 虽然还存在未登录词识别、歧义词语判定等问题4, 但总体而言, 经过必要的人工干预, 基本可以得到比较满意的结果。词表的理论基础是1990年颁布的国家标准《信息处理用现代汉语分词规范》以及从语料库建设过程中归纳出的比较细致的解释、说明5。在此基础上, MCC课题组兼顾中古词汇的过渡性特点、便于人工操作及分词软件识别等原则, 拟定并发布了中古语料库词语切分的主要规则6。这些规则, 体现了MCC课题组词语切分的总体思路:
    1.以分词单位作为中古汉语语料库的基本单位。分词单位包括中古阶段全部的词, 也包括部分高频词组。这一概念的设立, 较好地避开了词和词组的争议。因为在实际操作过程中, 界定分词单位比界定词或词组更容易把握, 也有利于系统软件对分词规则的理解和应用。
    2.建立一个动态的中古汉语义项数据库 (词表) :首先, 提取《汉语大词典》中包含中古用例的词条及义项, 初步建立一个中古汉语义项库。其次, 遴选了十多部中古汉语工具书、词汇史著作, 提取其中的词语、义项, 剔除与《汉语大词典》重合的条目, 逐批补充到义项库中;及时收集《中国语文》《语言研究》《古汉语研究》的中古词汇成果, 提取未见于义项库的词语及释义, 补充到义项库中7;实际切分过程中的未登录词, 由组内专家共同认定其性质、拟出义项并补入义项库, 以保持义项库的定期更新和升级。中古汉语义项库目前已收释54万词条, 基本能够满足中古文献词语切分的需要。
    3.采用机械匹配法, 用基于中古汉语义项库的分词软件对目标文献进行自动切分;组内成员逐一核查切出的句子、词语, 纠正误切, 标注词性、义项、语法地位等信息。校正自动分词结果时, 每一个词语都必须比对义项库的词条, 以初步判断是否成词。
    中古汉语语料库中包含了多种类型作品, 如比较典雅的官修正史, 口语成分较多的佛道作品、笔记小说、诗歌, 口语性突出的医农杂著, 与传世文献风格迥异的出土文献。如果针对不同类型作品的词汇特点, 分别建立词表、分词规范以及程序软件, 词语切分的精度显然会取得更为理想的效果。但是, 即使相对成熟的分词规范, 如《北京大学现代汉语语料库加工规范》、山西大学《973当代汉语语料库文本分词、词性标注加工规范》、清华大学与北京语言大学THBY语料库自拟的分词规范, 也只是对《信息处理用现代汉语分词规范》进行了局部调整, 远未精细到按文本类型建立词表、分词规范的程度。因此, 根据文本类型建立词表、分词规范的努力, 只能从中古汉语语料库自身实践中归纳、总结。由于佛教文献词汇特色极为鲜明, 语料数量颇为可观, 因而成了我们的首选目标。
    (二) 与词语切分相关的佛教词汇特点
    佛教文献包括两大类:由佛教原典转译的汉译佛经、中土人士撰写的佛教作品。前者的语言与正统的汉语书面语差异显著, 朱庆之称之为“佛教混合汉语”, 将其词汇特点归纳为:大量的口语词和俗语词;复音词极为丰富;大量的外来语8。其中, 后两个特点与中古语料库的词语切分密切相关。
    1.复音词方面。
    汉魏六朝前后, 四言诗、骈体文风行一时, 双音化逐渐成为汉语词汇发展的主流。受其影响, 汉译佛经形成了以2+2音节组合为主导的句式格局。将单音词变成双音词的方法有:找一个意义相近的单音词构成同义连文;找一个单音节反义词构成偏义复词;找一个经常与之配搭、不至于改变词语原义的单音词, 组成偏正、述补、述宾式复合词;还可以用意义虚化了的单音词来凑足两个音节。译经时的这些言语创新, 相当一部分经过不断的重复使用而凝固成词, 也有一些双音组合并未实现由自由词组到词的转变。由于言语创新在汉译佛经中属于普遍现象, 词语切分时必须予以充分考虑。现代汉语语料库常常利用语感来判断言语创新的性质, 中古语料库显然不能采用同样的方法。为了解决这一问题, MCC确立了三个操作性较强的界定标准: (1) 意义标准。词语组合的意义与两个构成成分的意义是否相等或存在转义现象, 同期文献中能否见到中间插入其他成分且不改变固有意义的实例。 (2) 频率标准。同期文献中是否具有较高的使用频率。高频词标准暂定为10万字规模的文本中出现10次以上或者同期作品中出现20次以上。 (3) 语感标准。在意义标准、频率标准难以判定的情况下, 由组内专家根据个人语感共同认定。
    2.外来语方面, 数量众多的外来语是汉译佛经最突出的语言特色。
    俞理明、顾满林归纳了东汉佛教文献的词汇特点:音译词以三音节居多, 平均长度为2.8个音节;部分音译形式可以组合使用;音译词使用率较高, 多数为人名、地名等专有名称;等等9。魏晋南北朝的汉译佛经也呈现了同样的规律性。这些外来语成分如何处理, 是词语切分的关键问题之一。
    与汉译佛经相对的是中土人士撰写的佛教义理著作、僧人行记、僧人传记、寺院记等, 如《经律异相》《法显传》《高僧传》《洛阳伽蓝记》等。这些作品多出自曹魏之后, 尤以南北朝为多, 被视为佛教词语从佛经文献到世俗文献的桥梁10。与汉译佛经相比, 其发生了多方面变化:淘汰了一词多译现象, 削减了音译词的音节数目, 大量采用梵汉合璧的构词方式, 用汉语词语比附佛教词语, 通过言语创新进行意译, 形成了以佛教基本概念为中心语素的众多词群, 等等。这些特点与汉译佛经、世俗文献存在显著差异, 也是词语切分时需要考虑的。
    “要制定出一部理想的面向真实文本的分词规范, 必须要调查大量的语言事实。应该从分析语言事实的过程中归纳出分词规范, 而不能靠演绎的方法。”11本文的佛教文献分词规范, 语料基础是完成人工切词、标注的中古佛教文献, 规模为31万字。分词规范包括“基本术语”“原则性规定”和“分词规则”。其中, “分词规则”由“具体规则”“例词”“说明”三部分构成12。分别以《中本起经》《生经》《洛阳伽蓝记》代表汉译佛经、中土佛教文献, 所有例词、例句均出自这三部作品。
    二、中古汉语语料库佛教文献分词规范
    中古汉语语料库佛教文献分词规范, 以国家标准GB13715《信息处理用现代汉语分词规范》为蓝本, 参照北京大学、山西大学、清华大学的现代汉语语料库分词规范, 根据中古佛教文献特点及中古语料库的操作需要, 进行了一定的调整和补充。
    (一) 基本术语
    1.词、词组。
    词是最小的能够独立运用的语言单位;词组是由两个或两个以上的词、按照一定的语法规则组成、表达一定意义的语言单位。
    2.分词单位。
    分词单位是从中古文献中切分出来的、具有确定的语义和语法功能的词语组合。除了通常意义上的词, 还包括了结合较紧密、搭配较固定的部分词组, 主要是一些带专名性质的名词性词组、凝固程度较高的成语及习用语、表示数量的词语。
    除了专名性质的分词单位外, 从字数上考虑, 两个字的词语组合可以较宽地看作一个分词单位, 三个字的较严, 四字以上的不看作一个分词单位;四字格形式的成语、习用语, 在转义语境中, 看作一个分词单位;义项库已收录的双音节、三音节词语, 在具体语境中明显体现出词组特点的, 予以切分;词组特点不明显的, 可以较宽地看作一个分词单位;表示数量的部分词语, 如, 两万八千三百七十、百分之三, 义项库虽未收录, 仍看作一个分词单位。
    3.中古汉语词语义项数据库。
    以《汉语大词典》包含中古用例的词条为主体, 以《魏晋南北朝词语例释》《佛学大辞典》等论著所释词语为补充, 提取义项、词性等信息, 经过技术处理建立的Access数据库是MCC词义标注、词性标注的重要依据。简称“中古汉语义项库”或“义项库”。
    4.词表、高频词表、未登录词。
    词表, 指义项库所有词条的总和, 是自动分词的主要依据, 也是人工切词的参考依据。切词过程中, 可以根据实际情况补充新的词条。
    高频词表, 指为佛教文献常用词语设立的词表, 分为两级:一级词表收录表示佛教基本概念的高频词, 如佛、法、僧、寺、塔、世尊、比丘、沙门、般若、精舍、涅槃、分卫、解脱、庄严等;二级词表收录以一级词表的单音词为中心语素的高频词语。自动分词软件为这些词语设置不同等级的优先度, 按照其等级予以优先切分。
    未登录词, 指义项库尚未收录的分词单位。
    (二) 原则性规定
    1.词语切分过程中, 不能因为义项库收录了某个词语, 就把文本中同一形体的词汇单位机械地判定为分词单位, 而是需要根据具体语境中的意义、用法作出适当判断。
    例:其/实 (发言似谶, 不可得解, 事过之后, 始验其实) ;足/下 (即从座起, 寻而奉迎。稽首足下, 请入就座) ;是/非 (佛告比丘, 是非沙门)
    “其实”相当于“它的真实情况”, “足下”相当于“脚的下方”;“是”属于指示代词, “非”是表否定的判断词, 分别处在不同的语法层面。这样的词语组合, 整体意义等于两个成分意义的简单相加, 义项库虽已收录, 此处仍应予以切分。
    2.判定分词单位, 适当从严。尤其是数量众多的同义复词, 中古时期往往处在由词组到词的过渡阶段。如果难以判断是否成词, 无论义项库收录与否, 均需予以切分。
    例:水/利 (长分桥西有千金堰, 计其水利, 日益千金) ;充/满 (年岁虽久, 粪犹不烂。以香泥填孔, 不可充满) ;县/官 (譬如有人, 父母终亡, 妻子死尽, 财没县官) ;迎/逆 (时王即见, 寻起迎逆)
    “水利”等于“水”和“利”的意义相加, 内部结构比较松散;“县官”泛指县里的官吏, 并非专指最高长官;“充”和“满”的意义比较实在, 尚未抽象化。这样的词语, 后来虽然凝固成了词, 上述语境中却只能视为词组;“迎”“逆”同义连文, 属于临时性的词语组合, 即使在近代汉语中也未能凝固成词。
    3.由两个相同词性的成分构成的词汇单位, 如果整体词性发生变化, 则视为一个分词单位。
    例:亿兆 (思与亿兆, 同兹大庆) ;二三 (求之二三, 未为尽善) ;织成 (中有丈八金像一躯、中长金像十躯、绣珠像三躯, 织成像五躯) ;知识 (怨家像知识, 而强结亲友)
    4.包含历史文化典故的双音节典故词、义项库收录的四字格成语、包含典故的四字格词组、未明确包含典故而习见于佛教文献的四字格, 均视为一个分词单位。
    例:逐臭、学颦 (海上有逐臭之夫, 里内有学颦之妇) ;水厄 (卿于水厄多少) ;以逸待劳, 度德量力;黍离之悲, 制岩东邑;皆大欢喜五体投地
    5.“音译+意译”构成的、含佛教教义的词或词组, 视为一个分词单位。
    例:A.檀越 衬施 坐禅 佛国;B.石塔 灵刹 僧俗 佛牙
    A组是词, 因而属于分词单位。B组词语的性质在中古暂无定论, 它们的共同特点是:整体上表达特定的佛教意义;其中一个成分是外来借词;单音借词表示的佛教义, 曾经或正在出现转义;佛教文献中使用频率较高, 凝固程度较高, 因而被视为词组性质的分词单位。
    6.“音译+类名”构成的三音节词组, 视为一个分词单位13;四音节词组, 切分为不同的分词单位。
    例:舍利骨 阎罗王 辟支佛 尸毗王 舍夷国 波罗奈/城 阿摩勒/果
    后面的“类名”, 用来提示音译词语的意义类属或意义特点。这类词语在佛教文献中大量存在, 添加汉语词语后, 整体意义比纯粹音译更为明晰。其中的三音节组合是佛教词汇的特色之一, 数量多, 频率高, 代表一个整体的佛教概念, 可以视为不需切分的分词单位。
    (三) 分词规则
    1.名词
    (1) 由两个非名词性单音成分并列而成以及动宾结构的名词性词组, 作为一个分词单位。
    例:举止 (综形貌举止甚似昏主;动+动→名) ;古老 (访古老, 云是吕光伐胡所作;形+形→名) ;丈六 (摹写真容, 似丈六之见鹿苑;单位名词+数→名) ;控弦 (部落之民, 控弦一万;动宾结构→名)
    语义标准是判断词或词组的重要依据, 其核心是词语的整体意义是否等于构成成分意义的总和。如果组合过程中存在词义扩大、缩小、转移、隐喻等情况, 通常就被看作词;不存在上述转义现象, 则视为自由词组。词性变化往往引发词义的变化, 因此, 发生词性变化的语言单位应视为一个分词单位。
    (2) 方位词应予单独切分;两个方位词的复合结构, 作为一个分词单位。
    例:东 西 南 北 外 内 里 以西 之上 之间 东南 西北
    (3) 时间名词或词组。
    a.一年的十二个月份, 作为一个分词单位;形式为月份、实际意义为月数, 则切分为不同的分词单位。例:正月 十一月 十二/月 (年无盈闰, 月无大小, 用十二月为一岁)
    b.“年、日”分别为分词单位。用十二时辰表示时间的双音节词组, 作为一个分词单位。
    例:三/年 (孝昌三年) 八月/六/日 子时 卯时
    c.表示时间的帝王年号, 干支纪年、纪日法, 均为分词单位。
    例:永熙 (永熙三年二月) 丁卯 (岁在丁卯) 丙寅 (十二月丙寅旦)
    d.“初”加十以内的数字作为一个分词单位。
    例:初一 初八
    (4) 专有名词中姓、名、字、号的切分规则。
    a.人名中的姓和名、字、号连用时, 作为一个分词单位。
    例:刘腾 荀子文 万俟丑奴 郁久闾阿郍肱 (蠕蠕主郁久闾阿郍肱来朝)
    b.姓、名、表字、号单独使用时, 作为一个分词单位。
    例:尔朱 (正欲问罪于尔朱, 出卿于桎梏) ;荣 (在荣为福, 于卿为祸) ;文举 (虽黄琬、文举无以加之) ;玄宗先生 (晖志性聪明……恒来造第, 与沙门论议, 时号为玄宗先生) ;尔朱荣, 复姓尔朱, 名荣;孔融, 字文举;玄宗先生, 金城太守孟仲晖的名号。
    c.对人的尊称, 作为一个分词单位。
    例:令尊 令兄
    d.“阿”与单音节名词性成分结合, 指称具体的人, 作为一个分词单位。
    例:阿梁 (阿梁, 卿忘我耶) ;阿侬、阿傍 (自呼阿侬, 语则阿傍) ;阿谁 (汝是阿谁?妄言我妇)
    (5) 专有名词中职官名的分词规则
    a.五个字以内的职官、爵位、封号、谥号等, 不予切分;五字以上的, 根据其内部结构予以切分。
    例:尚书令 黄门侍郎 仪同三司 灵太后柱国大将军 第一/领民酋长 (世为第一领民酋长、博陵郡公)
    b.姓、名、字、号与职官、爵位、封号、谥号连用时, 不予切分;帝王谥号、庙号与朝代名称连用时, 不予切分。
    例:张太尉 王昭仪 刘豫州 赵武穆 汉光武 魏高祖
    c.王、公、侯等封号与地名连用时, 不予切分;一般的职官名称与地名连用时, 切分为不同的分词单位。
    例:太原王 陈留侯 博陵郡公 洛阳/令 苞信/县令 荆州/牧 雍州/刺史 上洛/太守
    王、公、侯等封号虽然可以世袭, 实际上却专属于一个人或家族, 应该视为专名;职官名称不属于特定的人或家族, 完全不具备专名特征。
    与b组词语相比, “张”和“太尉”均指人, 性质相同;“洛阳”是地名, “令”的担任者是人, 性质迥异。因此, “张太尉”可以视为一个分词单位14, “洛阳令”则需切分。“刘豫州”指担任豫州太守的刘某, “豫州”虽为地名, 这种表达法相当于省略了中心语“太守”, 与“刘太守”实质上是一样的。
    d.含“族、人、国、省、州、郡、县、里、城、桥、关、山、河、江、海、湖、寺、殿、堂、门、台、园”等字眼的民族名、地名, 作为一个分词单位。
    例:胡人 蠕蠕族 天竺国 西凉州 敬义里 洛阳城颇那山 清暑殿 津阳门 张夫人桥 泥兰禅河 明悬尼寺
    e.官府、衙门名称, 作为一个分词单位。
    例:御史台 护军府 将作曹
    f.历史朝代名称, 不予切分;与表示敬称、尊称的词语连用时, 作为一个分词单位。
    例:秦 周 秦朝 周代 南朝 南北朝 皇魏 大魏
    g.专名词语不予切分;专名与通名连用时, 作为一个分词单位。
    例:海棠 海棠花 拘楼孙 拘楼孙佛 我所 (荜茇树上, 时有一鸟, 名曰我所, 止顿其中) 我所鸟 (欲知尔时我所鸟者, 则今此尊长者是)
    h.“数字+综括词”形式的、表示佛教教义的缩略语, 不予切分。数字限于10字以内。
    例:一乘、二谛、三明、六通 (至于一乘二谛之原, 三明六通之旨)
    三尊、五戒 (归命三尊, 授五戒已) 八正 (何谓入道, 八正为真)
    2.动词
    (1) 两个非动词性单音节成分并列而成的动词性词组, 作为一个分词单位。
    例:鱼肉 (终不食言, 自相鱼肉)
    (2) 否定副词与动词连用, 一律切分为不同的分词单位。
    例:未/审 不/能 不/堪 不/想 不/料 不/肯 不/愿 不/敢
    (3) 动宾结构的词或结合紧密、比较稳定的二字动宾词组, 不予切分;结合不紧密或有众多与之相同结构词组的动宾词组, 切分为不同的分词单位;难以判断者, 予以切分。
    例:报仇 释褐 受命 稽首 杀生 叉手 息心 执/戟 避/暑 陈/情
    (4) 动补结构, 一律切分为不同的分词单位。
    例:A.伐/杀 击/破 烧/死
    B.变/成 取/得 化/为 封/为 称/为
    动补结构的性质, 一直存在争议, 有人甚至认为动补结构都是词组15。一般认为动补结构来自上古的使动用法, 魏晋南北朝产生了真正的动补结构, 隋唐两宋广泛运用, 元明清逐渐成熟16。因此, 中古的动补结构并不具备成词的客观条件。B组的后一个成分, 意义较虚泛, 属于典型的动补结构, 显然不能视为分词单位;A组的后一个成分, 意义较实在, 也可以看作连动结构, 一定程度上具备成词条件。这类词语, 原则上均需切分;具体切词过程中, 允许极少数词语成为个案性质的例外。
    (5) 偏正结构的词或结合紧密、使用稳定的二字词组, 不予切分;结合不够紧密、使用不够稳定的, 切分为不同的分词单位;难以判断其紧密程度、稳定程度者, 予以切分。
    A.狼顾 追服 风行 三复 横流
    B.鸱/张 涉/渡 电/赴 群/飞 马/射
    A组的“狼顾”“追服”, 先秦两汉已经成词, 当然属于分词单位;“风行”“三复”“横流”, 虽然并未完全成词, 实际意义和字面意义却存在一定差异, 在中古文献中使用频率较高, 结构比较稳定, 因而也属于分词单位。B组的“群飞”“鸱张”“电赴”等, 分别与A组“横流”“狼顾”“风行”成对出现在对仗语境中, 或者构成2+2式四字格, 语法功能相同:“然群飞未宁, 横流且及, 皆狼顾鸱张, 岳立棊峙。”“风行建业, 电赴三川。”但是, B组词语在中古的使用频率相对较低, 经过检索, 不符合“10万字规模的文本中出现10次以上或者同期作品中出现20次以上”的条件, 只能切分成不同的分词单位。
    3.形容词
    由两个非形容词性单音节成分并列而成的形容词性词组, 作为一个分词单位。
    例:盈溢 (于时国家殷富, 库藏盈溢) ;踊跃 (甲胄之士莫不踊跃)
    4.副词
    (1) 两个非副词性单音节成分并列而成的副词性词组, 作为一个分词单位。
    例:早晚 (太尉府前砖浮图形制甚古, 犹未崩毁, 未知早晚造) ;分别 (如此之事, 分别说之)
    (2) “复”与单音节副词、连词结合而成的词汇单位, 不予切分。
    例:虽复 转复 不复 亦复
    (3) “然”与单音节形容词、动词结合而成的词汇单位, 不予切分。
    例:赧然 勃然 俄然 炳然
    中古的“然”“复”是不是真正的词缀, 还存在一些争议, 但是, 其词义的虚化是显而易见的。因此, 可以把这两组词语视为词组性质的分词单位。
    5.数词
    (1) 数词和量词, 切分为不同的分词单位。
    例:一/所 三/躯
    (2) 数位词语, 作为一个分词单位。
    例:三千二百五十/人
    (3) 分数表示法, 作为一个分词单位。
    例:五分之三
    (4) 表示概数的“多、余、数、近”, 与数词或数位词连用时, 切分为不同的分词单位。
    例:十/多/个 百/余/人 数/千/人 近/万/人
    6.量词
    名量词重叠使用, 作为一个分词单位。
    例:户户 夜夜 角角世世
    7.助词
    (1) 结构助词“之”、时态助词, 作为独立的分词单位。
    例:之 (牧民之官。)
    (2) 所字结构, 一律切分为不同的分词单位。
    例:所/立 所/见 所/谓
    8.重言词
    重言词, 一律作为一个分词单位。
    例:青青 草草 泱泱 数数 (数数发遣, 都不肯去) 唧唧 (咸皆唧唧)
    上述规则直接来自中古佛教文献的分词实践, 覆盖了佛教文献的绝大部分语言现象。从目前情况看, 人工切分者比较容易把握, 自动分词软件也比较容易理解。因此, 可以认为是一套比较实用、科学的分词规范。我们的设想是针对不同类型的中古文献, 分别建立三到五个差异性的分词规范, 在此基础上, 最终形成一个能够为多数学者接受的、比较通用和实用的、较为科学的中古汉语分词规范。由于古代汉语与现代汉语、语言理论与语言事实、语法的理论研究与实践应用、语言事实的人脑分析与电脑软件分析之间的巨大差异, 中古汉语分词规范的建立, 必然是一个相当复杂、需要不断探索的过程, 因此, 这些规则只能算是一个粗线条的框架, 其中还包含着一些不尽合理的地方。比较突出的问题有高频词语的确认。理论上说, 词语的凝固程度是界定词与非词的主要依据, 词语在文献中的使用频率则是凝固程度的直观体现。以往研究中, 凝固程度总是由研究者根据自己的语感进行主观判断, 容易出现众说纷纭的局面。如果能够提供一个具有可比性的比较理想的数值, 判断词语凝固程度的难题也就涣然冰释了。不过, 目前的中古汉语研究显然并不具备这样的条件, 因为中古语料库库中的文献仅仅是现存中古文献的一部分, 现存中古文献又仅仅是中古文献的一小部分;中古汉语的不少词语, 与近代汉语、现代汉语词语的使用频率本来就很难相提并论, 文献匮乏又进一步降低了词语应用的可能性;不同的词语在文献中出现的几率, 一定程度上可以说存在巨大差异;中古文献还存在不同程度的文献真伪、字词舛误、版本异文等难题。因此, “10万字规模的文本中出现10次以上或者同期作品中出现20次以上”的高频词标准, 至少在现阶段只能说是一个权宜性标准。此外, 还存在部分具体规则比较机械、可操作性有待提高、人机对话的技术障碍等问题。但是, 随着时间的推移、学术的进步, 可资利用的中古文献必然会越来越多, 辨别文献真伪、字词舛误的证据也会越来越多, 再加上计算机技术的飞速发展, 在适用于不同类型文本的分词规范的基础上, 为中古汉语语料库建立一个比较科学的分词规范、动态性的分词词表, 是完全有可能的。一旦建立起了这样的分词规范、分词词表, 中古汉语语料库的容量将迅速扩大, 中古词汇、语法诸领域的基础数据也将海量增加, 中古汉语以及汉语史诸多领域的研究, 必将因此而受益匪浅。
    注释
    1 孙宏林:《浅谈汉语分词的标准》, 《语言文字应用》1997年第4期。
    2 化振红:《深加工中古汉语语料库建设的若干问题》, 《西南大学学报》2014年第3期。
    3 郭曙纶:《汉语语料库的建设及应用》, 上海:上海外语教育出版社, 2011年, 第8页。
    4 (1) 自动分词软件的技术问题及其进展情况, 可参奉国和、郑伟:《国内自动分词技术研究综述》, 《图书情报工作》2011年第2期。本文的重点是根据词汇演变规律制定分词规范, 对于如何开发相应的软件来实现分词规范, 不予展开讨论。
    5 (2) 黄建年:《古籍计算机断句标点与分词标引研究》, 芜湖:安徽师范大学出版社, 2012年, 第3页。
    6 (3) 黄昌宁, 赵海:《中文分词十年回顾》, 《中文信息学报》2007年第3期。
    7 (4) 自动分词中的歧义词语、未登录词问题, 已经有了一些解决方法。如孙茂松等提出了针对伪切分歧义的消歧方法:把正确切分形式预先记录在表中, 通过直接查表消解其歧义;对于未登录词, 一般采用不断扩大词表的方法, 或者根据有关字词的频度数据及人工归纳的结构规则、上下文信息等, 对自动分词软件进行改良。详参孙茂松、邹嘉彦:《汉语自动分词研究评述》, 《当代语言学》2001年第1期。MCC主要不是通过自动分词而是依靠人工分词完成词语切分的, 自动分词是为了降低人工作业的强度;具体语境中的歧义词语, 人工识别并不困难;现代汉语新词语的产生是难以预期的, 中古词汇则具有一定封闭性, 建立一个足够规模的词表相对容易。因此, 这两个问题对于MCC并不是最棘手的, 也不是本文讨论的重点。
    8 (5) 俞士汶等以《北京大学现代汉语语料库基本加工规范》为题, 发表了《人民日报》语料库的加工规范《现代汉语语料库加工规范——词语切分与词性标注》, 该规范1999年制订、2001年修订, 俞文载于《中文信息学报》2002年第5期、第6期。
    9 (6) 这套规则包括:将中古汉语词语划分13个词类, 部分较复杂的词类预设若干次类, 建立相应的词类标记集;根据在句子中的语法功能确认兼类词、活用词的词性;以分词单位作为词语切分的基本单位;利用自主研制的中古义项库进行词语切分;确定分词单位时适当从严;若干具体的分词规则, 等等。详参化振红《深加工中古汉语语料库建设的若干问题》。
    10 (7) 义项库建立过程中, 相关论著的词条立目、义项分合、释义, 往往与《汉语大词典》不尽一致, 处理方法参见《深加工中古汉语语料库建设的若干问题》。
    11 (8) 朱庆之:《佛典与中古汉语词汇研究》, 台北:文津出版社, 1992年。
    12 (9) 俞理明、顾满林:《东汉佛道文献词汇新质研究》, 北京:商务印书馆, 2013年, 第413页。
    13 (10) 董志翘:《〈高僧传〉词语通释——兼谈汉译佛典口语词向中土文献的扩散》, 《汉语史研究集刊》第2辑, 成都:巴蜀书社, 2000年。
    14 (11) 孙宏林:《浅谈汉语分词的标准》, 《语言文字应用》1997年第4期。
    15 (12) “说明”部分, 是对中古汉语语料库中疑难词语切分方法的进一步说明, 主要讨论各种处理方式的理论依据。
    16 (13) 这里的音译成分多为专有名词。现代汉语语料库把“专名+类名”分成两种情况:能够省略为“专名”者, 单独切分;否则不予切分。参见袁毓林:《关于分词规范和规范词表的若干意见》, 《语言文字应用》1997年第4期。中古佛教文献中, 这类词语数量较多, 频率较高, 又表示一个完整的佛教概念, 视为词组性质的分词单位更为恰当。如果前面的“专名”不是音译词而是汉语固有词语, 可以依照现代汉语的做法处理。
    17 (14) 这个问题在现代汉语语料库中存在一定争议:《信息处理用现代汉语分词规范》规定, 姓氏与职务、职称构成的称谓一律切分, 如, 张/教授, 王/部长、王/师傅, 等等;郭曙纶则主张“汉人的姓名, 包括带姓的称呼, 都作为分词单位”, 如王教授、王老师、王师傅。详参郭曙纶:《汉语语料库的建设及应用》, 上海:上海外语教育出版社, 2011年, 第34页。
    18 (15) 王力《中国语法理论》把动补结构一律看成词组, 后来则认为:“在现代汉语里, 有些使成式逐渐单词化了。例如:推翻、扩大、改善、革新等。”见王力:《汉语史稿》, 北京:中华书局, 1980年, 第407页。
    19 (16) 梁银峰:《汉语动补结构的产生与演变》, 上海:学林出版社, 2011年, 第331-338页。

(责任编辑:admin)