语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 语言应用 >

三位一体字标注的汉语词法分析


        摘要:
        针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在 Bakeoff2007的 PKU 语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的 F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的 F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。
        关键词:
        汉语词法分析 最大熵模型 三位一体字标注
        作者简介:
        于江德,安阳师范学院计算机与信息工程学院。
        胡顺义,安阳师范学院计算机与信息工程学院。
        余正涛,昆明理工大学信息工程与自动化学院。
        基金项目:
        国家自然科学基金(60863011),河南省基础与前沿技术研究计划项目(112300410182),河南省教育厅科学技术研究重点项目(14A520077)。
    

(责任编辑:admin)