论文类型:期刊论文
发表刊物:中文信息学报
收录刊物:CSCD、ISTIC、PKU
卷号:28
期号:6
页面范围:169-174,189
ISSN号:1003-0077
关键字:CRF;规则;时间触发词;时间缀词
摘要:该文提出一种统计与规则相结合的时间表达式识别方法.首先,通过分析中文文本中时间表达式的词形、词性和上下文信息,采用条件随机场识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;然后,从训练语料中自动获取候选触发词,并依据评价函数对候选触发词打分,筛选出正确的触发词完善触发词库;最后,根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位.实验结果显示开式测试F1值达到98.31%.
