location: Current position: Home >> Scientific Research >> Paper Publications

基于CRFs边缘概率的中文分词

Hits:

Indexed by:期刊论文

Date of Publication:2009-09-15

Journal:中文信息学报

Included Journals:PKU、ISTIC、CSCD

Volume:23

Issue:5

Page Number:3-8

ISSN No.:1003-0077

Key Words:计算机应用;中文信息处理;中文分词;条件随机场(CRFs);边缘概率;最大向前匹配(FMM);全局特征

Abstract:将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法.针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法.该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串.在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度.

Pre One:Extended super function based Chinese Japanese machine translation

Next One:Two-phase biomedical named entity recognition using CRFs