李文立
个人信息Personal Information
教授
博士生导师
硕士生导师
性别:男
毕业院校:大连理工大学
学位:博士
所在单位:信息管理与信息系统研究所
学科:管理科学与工程
办公地点:管理与经济学部D501
电子邮箱:wlli@dlut.edu.cn
扫描关注
基于HTML树和模板的文献信息提取方法研究
点击次数:
论文类型:期刊论文
发表时间:2010-12-15
发表刊物:计算机应用研究
收录刊物:PKU、ISTIC、CSCD
卷号:27
期号:12
页面范围:4615-4617
ISSN号:1001-3695
关键字:网页信息提取;文档对象模型树;模板;文献信息搜集
摘要:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取.实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上.