李丽双

个人信息Personal Information

教授

博士生导师

硕士生导师

性别:女

毕业院校:大连理工大学

学位:博士

所在单位:计算机科学与技术学院

学科:计算机应用技术. 计算机软件与理论

办公地点:创新大厦A930

电子邮箱:lils@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于词表示方法的生物医学命名实体识别

点击次数:

论文类型:期刊论文

发表时间:2016-02-15

发表刊物:小型微型计算机系统

收录刊物:PKU、ISTIC、CSCD

卷号:37

期号:2

页面范围:302-307

ISSN号:1000-1220

关键字:半监督;词表示;聚类;实体识别

摘要:生物医学命名实体识别是生物医学信息抽取的前提.目前实体识别大多采用机器学习的方法,依靠人工根据领域知识和经验制定特征,需要反复实验进行相应的特征选择,并且这些特征很少使用深层次的语义信息.为了探究语义信息对命名实体识别的影响,本文尝试在大规模未标注数据上进行训练,自动获得语义信息,得到三种词表示方法:词向量、基于词向量的聚类和布朗聚类.将其作为CRF和SVM的特征进行半监督学习,并在相同条件下进行对比实验.实验结果表明,词表示方法能有效地学习到潜在的语义信息,从而提高现有基于机器学习系统的性能.在未利用词典等任何外部资源的情况下,公共评测语料BioCreative Ⅱ GM上的实验结果为:精确率、召回率、F值分别达到91.24%、85.80%、88.44%.