Hits:
Indexed by:期刊论文
Date of Publication:2006-03-30
Journal:小型微型计算机系统
Included Journals:PKU、ISTIC、CSCD
Volume:27
Issue:3
Page Number:516-519
ISSN No.:1000-1220
Key Words:汉语自动分词;最长次长匹配;最小代价路径;切分歧义消解;未知词特征词
Abstract:基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果.在切分歧义的处理上采用分步过滤逐步解消的方法,并引入了基于未知词特征词驱动的机制,对未知词进行了前处理,减少了因未知词的出现而导致的切分错误.实验结果表明,该方法有效地提高了汉语分词的精确率和召回率.