王延章

个人信息Personal Information

教授

博士生导师

硕士生导师

任职 : 电子政务模拟仿真国家地方联合工程研究中心主任

性别:男

毕业院校:大连理工大学

学位:博士

所在单位:信息与决策技术研究所

电子邮箱:yzwang@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于关联token自适应字段匹配算法设计

点击次数:

论文类型:期刊论文

发表时间:2010-10-16

发表刊物:计算机工程与设计

收录刊物:PKU、CSCD

卷号:31

期号:19

页面范围:4238-4241

ISSN号:1000-7024

关键字:数据清洗;重复记录检测;字段匹配;关联token;支持向量机

摘要:为了解决传统字段匹配算法未能根据数据源数据特征进行匹配函数调整的缺陷,提出了一种基于关联token操作和支持向量机的自适应字段匹配算法.该算法使用关联操作集形式化描述字段间的相似性,提出了一种改进字段相似度计算的Cosme式,将关联操作集转换为描述字段相似度的规一化向量值,并设计了基于SVM学习的字段匹配算法.最后对实际实验数据进行了分析,结果表明了该算法对于不同数据质量的数据源都可取得较好的匹配精度.