Hits:
Indexed by:期刊论文
Date of Publication:2005-08-21
Journal:小型微型计算机系统
Included Journals:PKU、ISTIC、CSCD
Volume:26
Issue:8
Page Number:1406-1410
ISSN No.:1000-1220
Key Words:自动分词;开放式;学习机制;错误驱动
Abstract:针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元分词模型,讨论了切分算法和人机交互中的具体问题,并通过实验确定模型系数和阈值 .实验结果表明,该分词模型经三次学习后,闭式分词中的切分错误有78.44%得到纠正,切分正确率达到99.43%,开式分词中的切分错误有63.56%得到纠正,切分正确率达到98.46%.系统具有较高的实用价值.