语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 词典学 >

《现代汉语语法信息词典》的收词原则

《现代汉语语法信息词典》的收词原则
王惠
chswh@nus.edu.sg

    关键词:现代汉语、语法词典、收词原则
    一. 前言
    《现代汉语语法信息词典》是一部供计算机分析与生成汉语句子而使用的机器词典。词典计划收词6万左右,所收条目包括:名词n,时间词t,处所词s,方位词f,数词m,量词q, 区别词b,代词r,动词v,形容词a,状态词z,副词d,介词p,连词c,助词u,语气词y,象声词o,叹词e,前接成分h,后接成分k,成语i,简称略语j,习用语l,语素g,非语素字x,标点符号w等26类。其中前18类是语言学界普遍认可的词,后8类只是借助这些术语对词典中所收的非词成分进行归类[1]。为行文方便,本报告中将对词典中收录的这26类成分都统称为“词语”。
    北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》。该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目《中文信息处理技术应用开发平台》[3]的总规划, 并与国家自然科学基金项目“自然语言的计算理论”相配合。 经过七年的连续开发, 目前, 该研究已取得重要的阶段性成果, 词典已初步完成了五万词的收录、归类及属性描述。 本报告就是在这些实际工作经验的基础上, 详细介绍这部电子词典的收词原则。
    二. 收词原则
    词典的收词原则依赖于其应用目标。《现代汉语语法信息词典》( 以下简称“电子词典”)是供计算机使用的, 与供人使用的词典相比较, 收词原则应有所区别;本词典又是一部面向中文信息处理各个领域的通用性词典, 它不依赖于任何特定的语言处理模型及算法, 因而, 与一般依赖于某个具体处理系统的电子词典相比较, 收词原则也有很大的区别。
    下面从6个方面对这部电子词典的收词原则进行介绍:
    1. 规范原则
    (1). 符合国家标准《信息处理用现代汉语分词规范》的词语,都属于电子词典的收词范围。
    根据该《信息处理用现代汉语分词规范》中对“分词单位”的定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组”。语言学中所定义的词:“最小的能自由运用的语言单位,首先是电子词典的收录对象。在目前已收录的五万余条词语中, 词占95%以上, 包括了全部的18个基本类。对于其中的9个封闭类:方位词、量词、代词、副词、介词、连词、助词、 语气词、叹词等, 电子词典尽可能全部收录。而另外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等, 由于其数目众多, 电子词典不可能都收录, 而是还要进一步参照下面将要介绍的其它几个收词原则(如高频原则、稳定原则、 词部件原则等)进行取舍。
《现代汉语语法信息词典》的收词原则
(责任编辑:admin)