6 总结 综上所述,否定与不确定信息抽取研究主要集中在线索词识别和覆盖域界定两个子任务上,在生物医学自然语言处理领域已经取得了初步的成果,并应用于相关领域的信息抽取、情感分析和问答技术等任务中。 随着BioScope语料库的发布和CoNLL’2010评测的开展,否定与不确定信息抽取研究逐渐成为自然语言处理领域的研究热点。 目前,大多数否定与不确定信息抽取研究集中在句法层面,严重依赖于句法分析的结果,因此,需要在语义层面定义更细粒度的否定与不确定信息要素;其次,跨句子的否定与不确定信息很难使用现有方法进行抽取,借助篇章结构分析的相关技术可以收集到更多的上下文信息,实现基于篇章的否定与不确定信息抽取;此外,在某些特定的上下文环境中,并没有明显的线索词指示出否定或不确定信息,需要依靠事件或实体之间的关系进行推理,从而识别此类否定或不确定信息;最后,面向汉语的否定与不确定信息自动抽取研究刚刚起步,面临着语料库匮乏的问题,同时,如何获得有效特征也是亟待解决的问题。 总之,否定与不确定信息抽取研究仍未完善,未来的研究将集中在:语义层面的否定与不确定信息要素抽取研究;面向篇章的否定与不确定信息抽取研究;隐式线索词的否定与不确定信息抽取研究;以及面向汉语的否定与不确定信息抽取研究等方面。 注 释: 【1】http://www.mitpressjournals.org/toc/coli/38/2 【2】http://www.inf.u-szeged.hu/rgai/conll2010st/index.ht-ml#intro 【3】注意:并非所有否定或不确定词都可以作为线索词。例如,在否定信息识别任务中,本文认为双重否定属于一种修辞方式,而非真正意义上的否定。 【4】http://simple.wikipedia.org/wiki/Wikipedia:WEASEL (本文参考文献请参阅《中文信息学报》2015年第29卷第4期) (责任编辑:admin) |