李文立

个人信息Personal Information

教授

博士生导师

硕士生导师

性别:男

毕业院校:大连理工大学

学位:博士

所在单位:信息管理与信息系统研究所

学科:管理科学与工程

办公地点:管理与经济学部D501

电子邮箱:wlli@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于HTML树和模板的文献信息提取方法研究

点击次数:

论文类型:期刊论文

发表时间:2010-12-15

发表刊物:计算机应用研究

收录刊物:PKU、ISTIC、CSCD

卷号:27

期号:12

页面范围:4615-4617

ISSN号:1001-3695

关键字:网页信息提取;文档对象模型树;模板;文献信息搜集

摘要:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取.实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上.