周惠巍

个人信息Personal Information

副教授

博士生导师

硕士生导师

性别:女

毕业院校:大连理工大学

学位:博士

所在单位:计算机科学与技术学院

学科:人工智能

办公地点:大连理工大学创新园大厦B911

电子邮箱:zhouhuiwei@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于子词的双层CRFs中文分词

点击次数:

论文类型:期刊论文

发表时间:2010-05-15

发表刊物:计算机研究与发展

收录刊物:EI、PKU、ISTIC、CSCD、Scopus

卷号:47

期号:5

页面范围:962-968

ISSN号:1000-1239

关键字:中文分词;条件随机场;双层条件随机场;子词;子词过滤

摘要:提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.