论文类型:期刊论文
发表刊物:小型微型计算机系统
收录刊物:CSCD、ISTIC、PKU
卷号:37
期号:4
页面范围:711-715
ISSN号:1000-1220
关键字:关键词抽取;未登录词识别;候选词抽取;TF-IDF
摘要:关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右.
