Hits:
Indexed by:期刊论文
Date of Publication:2018-01-01
Journal:中文信息学报
Included Journals:CSCD
Volume:32
Issue:3
Page Number:17-25,33
ISSN No.:1003-0077
Key Words:未登录词识别;社交媒体语料;词向量;无监督方法
Abstract:该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法.该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤.此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值.实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料.实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%.最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%.