Hits:
Indexed by:期刊论文
Date of Publication:2010-12-15
Journal:计算机应用研究
Included Journals:PKU、ISTIC、CSCD
Volume:27
Issue:12
Page Number:4615-4617
ISSN No.:1001-3695
Key Words:网页信息提取;文档对象模型树;模板;文献信息搜集
Abstract:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取.实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上.