论文名称:基于CRFs边缘概率的中文分词 论文类型:期刊论文 发表刊物:中文信息学报 收录刊物:PKU、ISTIC、CSCD 卷号:23 期号:5 页面范围:3-8 ISSN号:1003-0077 关键字:计算机应用;中文信息处理;中文分词;条件随机场(CRFs);边缘概率;最大向前匹配(FMM);全局特征 摘要:将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法.针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法.该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串.在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度. 发表时间:2009-09-15