
副教授 博士生导师 硕士生导师
性别:男
毕业院校:大连理工大学
学位:博士
所在单位:建设管理系
学科:工程管理
办公地点:综合实验四号楼517室
电子邮箱:
开通时间: ..
最后更新时间:..
点击次数:
发布时间:2019-12-25
论文类型:期刊论文
发表时间:2006-01-01
发表刊物:情报学报
收录刊物:CSSCI、CSCD、ISTIC、PKU
卷号:25
期号:1
页面范围:74-79
ISSN号:1000-0135
关键字:汉字;自动切分;串频;长串优先匹配
摘要:提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法.采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串.该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计.实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串.