大连理工大学主页平台管理系统 Huang Degen 汉语自动分词中中文地名识别 Home

Current position: Home >> Scientific Research >> Paper Publications

面向中文社交媒体语料的无监督新词识别研究

Release Time:2019-03-12 Hits:

Indexed by: Journal Article

Date of Publication: 2018-01-01

Journal: 中文信息学报

Included Journals: CSCD

Volume: 32

Issue: 3

Page Number: 17-25,33

ISSN: 1003-0077

Key Words: 未登录词识别;社交媒体语料;词向量;无监督方法

Abstract: 该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法.该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤.此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值.实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料.实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%.最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%.

Prev One:Recognition of Syntactic Relationship between Clauses Using CRFs

Next One:Combining Context and Knowledge Representations for Chemical-disease Relation Extraction

Home

Scientific Research

Teaching Research

Awards and Honours

Enrollment Information

Student Information

My Album

Blog

面向中文社交媒体语料的无监督新词识别研究