Current position: Home >> Scientific Research >> Paper Publications

TF-IDF与规则相结合的中文关键词自动抽取研究

Release Time:2019-03-10  Hits:

Indexed by: Journal Article

Date of Publication: 2016-04-15

Journal: 小型微型计算机系统

Included Journals: CSCD、ISTIC、PKU

Volume: 37

Issue: 4

Page Number: 711-715

ISSN: 1000-1220

Key Words: 关键词抽取;未登录词识别;候选词抽取;TF-IDF

Abstract: 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右.

Prev One:Optical packet header identification utilizing an all-optical feedback chaotic reservoir computing

Next One:Exploiting syntactic and semantics information for chemical-disease relation extraction