大型词典编纂的计算机辅助开发与管理系统
http://www.newdu.com 2024/11/23 11:11:48 华语桥 王惠 参加讨论
大型词典编纂的计算机辅助开发与管理系统
摘 要:词典编纂是一项需要投入大量人力、物力、财力的大型语言工程。由于词典包含的信息量巨大,开发周期长,编纂人员多,工程项目所要求的进度与词典的质量保证都是非常关键的问题。为此,我们设计并实现了一个词典编纂的计算机辅助开发与管理系统。该系统已经在北京大学“现代汉语语义词典”的开发过程中发挥了重要作用,它有效地提高了词典编纂的效率和质量;同时,该项研究也是对汉语计算词典学理论的一种有益探索。王惠 李康年 关键词:词典编纂 词典管理 知识挖掘 自动翻译 计算词典学 1.前言 随着自然语言处理技术的迅速发展,词义分析的重要性与迫切性也为越来越突出。为了给计算机自动分析提供更全面、深入的语义信息,北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”。1996年至1998年,受到国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”的支持,语义词典进入到大规模开发阶段,并取得重要的阶段性成果,完成了4.9万汉语词语的语义分类和搭配信息描述[1]。四年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目(G1998030507-4、G1998030507-1)的支持,由北大计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。 目前,现代汉语语义词典的规模与质量都有了显著的提高,共收录词条6.6万,采用Access数据库实现。其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类8个属性字段。名词库设15个属性字段,动词库设16个属性字段。所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接[2]。现在,它正在一个汉英机器翻译系统中发挥着重要的作用。 在语义词典的编纂修订过程中,为了保证词典内容准确可靠,有效地管理编纂人员,同时兼顾工程进度,我们开发了一个计算机辅助词典开发和管理系统,用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。本系统在Windows 2000的操作系统下使用Visual C++ 6.0编写、运行,采用Access 2000数据库存储词典数据库。系统的构成主要包括以下4个子系统:词典编辑、自动检测、自动翻译、项目管理。
|