大连理工大学  登录  English 
姜韶华
点赞:

副教授   博士生导师   硕士生导师

性别: 男

毕业院校: 大连理工大学

学位: 博士

所在单位: 建设管理系

学科: 工程管理

办公地点: 综合实验四号楼517室

电子邮箱: shjiang@dlut.edu.cn

手机版

访问量:

开通时间: ..

最后更新时间: ..

基于长度递减与串频统计的文本切分算法

点击次数:

论文类型: 期刊论文

发表时间: 2006-01-01

发表刊物: 情报学报

收录刊物: PKU、ISTIC、CSCD、CSSCI

卷号: 25

期号: 1

页面范围: 74-79

ISSN号: 1000-0135

关键字: 汉字;自动切分;串频;长串优先匹配

摘要: 提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法.采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串.该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计.实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串.

辽ICP备05001357号 地址:中国·辽宁省大连市甘井子区凌工路2号 邮编:116024
版权所有:大连理工大学