Hits:
Indexed by:期刊论文
Date of Publication:2009-09-15
Journal:中文信息学报
Included Journals:PKU、ISTIC、CSCD
Volume:23
Issue:5
Page Number:3-8
ISSN No.:1003-0077
Key Words:计算机应用;中文信息处理;中文分词;条件随机场(CRFs);边缘概率;最大向前匹配(FMM);全局特征
Abstract:将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法.针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法.该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串.在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度.