NAME

周惠巍

Paper Publications

基于子词的双层CRFs中文分词
  • Hits:
  • Indexed by:

    期刊论文

  • First Author:

    黄德根

  • Correspondence Author:

    Huang, D.(huangdg@dlut.edu.cn)

  • Co-author:

    焦世斗,周惠巍

  • Date of Publication:

    2010-05-15

  • Journal:

    计算机研究与发展

  • Included Journals:

    EI、PKU、ISTIC、CSCD、Scopus

  • Document Type:

    J

  • Volume:

    47

  • Issue:

    5

  • Page Number:

    962-968

  • ISSN No.:

    1000-1239

  • Key Words:

    中文分词;条件随机场;双层条件随机场;子词;子词过滤

  • Abstract:

    提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.

Pre One:短语结构到依存结构树库转换研究

Next One:类似文章检索辅助类似电路理论知识学习的研究