Current position: Home >> Scientific Research >> Paper Publications

基于CRFs边缘概率的中文分词

Release Time:2019-03-10  Hits:

Indexed by: Journal Article

Date of Publication: 2009-09-15

Journal: 中文信息学报

Included Journals: CSCD、ISTIC、PKU

Volume: 23

Issue: 5

Page Number: 3-8

ISSN: 1003-0077

Key Words: 计算机应用;中文信息处理;中文分词;条件随机场(CRFs);边缘概率;最大向前匹配(FMM);全局特征

Abstract: 将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法.针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法.该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串.在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度.

Prev One:Extended super function based Chinese Japanese machine translation

Next One:Two-phase biomedical named entity recognition using CRFs