1 研究背景 随着信息抽取技术的发展,越来越多的相关应用试图从海量信息中获取所需要的信息,在Hobbs[1]提出的信息抽取通用体系中,并没有对信息的准确性进行甄别,因此,若抽取到的知识来源于表示否定、推测或可能等非准确信息(Lakoff[2]),则很难保证所获取知识的可靠性。否定与不确定信息抽取研究目前主要集中在面向生物医学科技文献的信息抽取任务中,根据在 BioScope生物医学语料库上的统计,针对实验结果或临床现象的推断通常涉及否定或不确定表达,其比例分别达到 13.45%和17.70%,因此,准确识别和抽取否定与不确定信息具有重要意义。近年来,各类面向否定与不确定信息抽取研究的评测会议和专刊的出现,也表明了该研究的重要性:BioNLP’2009事件抽取评测[3]将否定信息和不确定信息抽取作为 其三个关键 任务之一;CoNLL’2010[4]专门针对不确定信息抽取设置了评测任务;期刊Computational Linguistics 在2012年第2期出版了针对否定与不确定信息抽取研究的专刊【1】。 Morante等[5]从符号语言学的角度详细描述了否定信息和不确定信息。否定信息通常关系到一个命题运算符及其语义作用范围,它反转了命题的可靠性或真实性;不确定信息描述了事物的或然性,是介于确定和否定之间的表达类型。早期的否定与不确定信息抽取研究一直停留在语言学层面,例如,Horn[6]最早从语言学的角度对否定信息进行了详细地分类。由于不同应用对信息抽取需求的差别,否定与不确定信息抽取通常面向特定领域的信息抽取任务,例如,在面向科技文献的信息抽取研究中,Hyland[7]通过对该领域语料的分析,详细阐述了科技文献中含有大量不确定信息及将其与可靠信息区分处理的思想。随着自然语言处理相关技术的不断发展,开始有研究尝试自动识别否定或不确定信息,例如,Friedman等[8]在生物医学领域最早使用信息抽取技术识别包含否定和不确定信息的语言片段,后来,Friedman等[9]开发了医学语言处理(Medical Language Processing,简写为 MLP)平台,该系统能够识别生物医学文献中的否定信息。在否定与不确定信息自动抽取的早期研究中,最著名的系统是由Chapman 等[10]开发的基于正则表达式算法的NegEx系统,该系统用于自动识别医学诊断记录中的否定结论,之后,围绕该系统的相关研究一直未间断,逐渐形成了基于启发式规则的否定与不确定信息抽取方法;另一方面,随着BioScope语料库(Vincze等[11])的公布,以及各种评测会议的开展,大量基于机器学习方法的否定与不确定信息抽取技术开始出现。 目前,否定与不确定信息抽取研究主要围绕以下三个要素:线索词(Cue)、覆盖域(Scope)和聚焦点(Focus)。线索词是指一句话中能够“标识”出否定或不确定含义的单词或短语,例1和例2中,以粗体表示的“不会”和“可能”分别作为否定线索词和不确定线索词;覆盖域是指线索词的语义覆盖范围,通常为句子中的某一连续片段(以方括号表示),如例1中,否定线索词“不会”否认了命题“在今年夏天之前签下内马尔”的真实性,而“巴塞罗那主席罗塞尔表示”是事实,不在否定线索词的覆盖域内;聚焦点指线索词的语义作用点(以波浪线表示),例如,将例1的否定命题“不会在今年夏天之前签下内马尔”与另一否定命题“不会签下内马尔”比较后,不难发现,前者中的否定线索词“不会”针对的是“在今年夏天之前”,至于会不会在其他时间“签下内马尔”则不知道,据此判断,其聚焦点是“在今年夏天之前”。 否定与不确定信息抽取技术已经成功应用在很多自然语言处理方向上。例如,在情感分析中,Turney[12]、Councill等[13]和 Li等[14]的研究表明:情感词对载体的极性不仅与其本身极性相关,还与作用在其上的否定词相关,因此,处于否定词覆盖域中的情感词需要反转极性;同时,不确定词的覆盖域在判断情感强度上也起到了重要作用,例如,“这部电影[或许真的有他们说得那么好看]。”,正极性的情感词“好看”处于不确定词“或许”的覆盖域中,可降为弱正极性。除了情感分析,否定与不确定信息抽取研究还涉及了以下自然语言处理应用:Averbuch等[15]采用信息增益的方法构建否定上下文信息模版,应用在医学信息搜索引擎中;Bachen-ko等[16]将不确定信息作为识别欺诈描述文本的指示器之一;Baker等[17]利用自动标注的不确定信息提高了机器翻译系统的性能。 本文简要介绍了否定与不确定信息抽取研究的背景、任务、评测和语料,重点论述和分析了该领域的相关研究及其相互关系,并在篇尾展望了否定与不确定信息抽取研究的未来发展。本文组织如下,第二节简要介绍否定与不确定信息抽取的相关任务及评测标准;第三节介绍该领域中较为成熟的语料库和标注规则;第四节着重介绍否定与不确定信息抽取研究及发展现状;第五节概述现有研究存在的问题,以及对该研究未来的发展趋势进行展望。 (责任编辑:admin) |