北京大学数据分析研究中心数字化成果概述_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

    使用计算机处理语料文献，与港台地区及欧美相比，北京大学中文系起步比较晚，这主要是因为限于计算机操作系统对国标码字符系统的支持。国标扩充字符系统普及后，20902个汉字在处理古籍文献语料方面，已优于港台地区的大五码。北京大学中文系开始大面积、高起点、高效率地整理古籍文献资料。
    起步晚，但是起点高，这是北京大学中文系在处理古籍语料方面的主要特点。1998年北京大学中文系承担了国家“九五”211项目——《全唐诗电子检索系统》的研发。项目主持人李铎博士向项目组提出了三个目标:一、使用Uni-code编码，使全球任何语言版本的操作系统均可正常使用该系统;二、使用XML标记语言，脱离数据库平台，使用最先进的搜索引擎，实现跨平台的多维度检索;三、建设开放的、可扩展的模块化结构，可以任意增减数据。鉴于当初互联网上数据不精，往往给学术研究带来不便的问题，该项目组制定出文本校对高于纸介出版物的标准。1999年该成果在互联网上免费供全球使用，受到广泛好评，并被评为北京大学211项目标志性成果。
    继《全唐诗》电子检索系统之后，北京大学中文系开始了《全宋诗》的数字化工作。随着时代的发展，人们对数字文献已不满足于全文检索。北京大学中文系开始尝试使用计算机对文献进行智能化的研究和整理，所研发的新系统并未沿用“检索系统”的概念，而改为“分析系统”，由此分析系统，形成了人工不可能完成的重大学术成果:
    一、格律诗自动标注。《全唐诗》有五万首
    诗，当初标注格律时，是人工完成的，其工程量极大，和录入整理文献相当。《全宋诗》二十五万余首，人工标注已是不可能的。《〈全宋诗〉分析系统》在底层植入了李铎承担的教育部“全宋诗诗歌模型研发”成果，将诗歌模型及音韵库（《佩文韵府》等）结合起来，由计算机自行对诗歌做格律分析，提取出各种格律形成的诗歌十六万首，且可以依此格律进行检索，抽样近千首，尚未发现标注错误者。
    二、重出诗提取。《全宋诗》纸介版工程浩大，编辑人员数十人历时十余年才完成。它的整理出版引起了全世界的关注，其图书被评为国家优秀图书。但是，书中存在误收重出的现象，有些名诗人如苏轼、王安石、欧阳修等人的诗作，与他人作品重出均在四十首以上，这势必会影响到全书的使用。因为北京大学中文系所开发的是分析系统，整理重出误收诗自然成为一项重要的内容，使用比较复杂的算法，该系统完成了近五千首重出误收诗的提取，为进一步整理分析《全宋诗》打下了基础。
    三、字及字组分析。作为分析系统来开发，它必须能够完成一些非人。可以完成的科研项目（如格律诗标注、重出诗提取），也要为学术研究生成信息化时代的新颖课题，同时又可以为课题做评估。在全宋诗的研究中，“字与字组”分析已生成许多课题，如《全宋诗》“我”字使用率最高的前十位的主体性研究等等。
    四、自作诗分析。因为考虑到我们的系统是面向教学科研的，我们使用诗歌模型，对用户自作诗做分析，可以随时分析用户自己诗作是否合格律。2005年1月16日，作为211项目子课题的《〈全宋诗〉分析系统》通过国家级鉴定，被由文学、语言学、文献学和计算机专业的学者组成的专家组评定为:“《〈全宋诗〉分析系统》突破了以往的全文检索的信息提供模式，在数据深层挖掘和知识发现方面具有开创性意义。其重出诗提取、格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等带有智能化特点，该系统提供多维的检索分析方式，为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着，计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。”专家们一致认为:《〈全宋诗〉分析系统》是信息处理技术与中国古代文学研究的有效结合，展示出信息技术在中国古代文学研究领域应用的方向和广阔前景，该系统达到了国际领先水平。在信息处理技术与中国古代文学研究结合方面居国际领先地位。
    在整理《全宋诗》数字文本的同时，北京大学中文系开始了大规模数字文献整理，已完成古籍精校文献两亿汉字，包含历代文献中的核心数据。整理现代汉语语料30亿汉字，研发出基于此30亿汉字的字频统计表和字频分布表，并建立了现代汉语基本句型系统。
    2005年7月，北京大学以中文系为主干，正式成立了“北京大学数据分析研究中心”。
    北京大学数据分析研究中心整合了北京大学人文社会科学、中文信息处理、计算机科学的研究力量，与燕歌行科技有限公司联合，于2005年8月推出了“数字图书管理系统（http://lib.pkudata.com）”。细粒度的全文检索、多格式文件支持与新型的数字图书分类成为该系统的亮点。在组合检索中，可以将检索内容限制在“页、句”或一定的字数内，使检
    索效率明显提高，如使用者需要了解“胡适” 与“鲁迅”之关系，一般的检索系统则将凡是含有这两个检索词组的书全检索出来，使用者很难高效率地找到自己想要的资料。而此系统的细粒度检索，允许使用者将这两组待检字组限制在一页中、一句中、二十字内等等，并依据频率排序，优先出现高组合的书页，为阅读、学习、研究提供了快捷的检索方式;使用者可以将自己已有的各种数字图书格式建入此系统，包括目前比较流行的PDF等等;传统的图书分类是为使用架式陈列查找而制作的，在数字化时代，一部书可以以多种属性标记，可以在多种类中出现，北京大学数据分析中心研制出“数字图书多维分类法”，以属性标记为基础，形成了可以无限扩展的多维度检索方式。数字图书管理系统由数字图书管理服务器和局域网络构成，服务器采用封闭式系统，面对为测试系统使用的32亿汉字的“有效图书”，最复杂的检索不超过八秒。2005年6月开始在互联网上测试，仅仅两个月，就受到中小学、厂矿企业、机关单位、高校科研单位的广泛好评。
    北京大学数据分析研究中心以学术研究为主，在规范化汉字数字信息、制定“汉语知识库”标准中起着重要作用，同时与兄弟院校、高科技公司联合，开发出既有社会效益、又有经济效益的产品，并为高校科研单位提供定制化的服务。
    目前，北京大学数据分析研究中心已研制出“继续教育与职业培训管理系统”，并由燕歌行科技有限公司推向市场，开始研发“面向中小学教育教学的知识库”、“面向人文社会科学研究的知识库管理系统”、“中小学教师继续教育培训课件制作与演示系统”、“SPAPAP（Super Parallel Ancient Prose Analysis Platform:超并行古籍分析平台）”。
    原载：《文学遗产》2005年第5期 (责任编辑：admin)

搜索

热门标签:

北京大学数据分析研究中心数字化成果概述