孟军

个人信息Personal Information

教授

博士生导师

硕士生导师

性别:女

毕业院校:大连理工大学

学位:博士

所在单位:计算机科学与技术学院

学科:计算机应用技术. 计算机软件与理论

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

节点频度和语义距离相结合的网页正文信息抽取

点击次数:

论文类型:期刊论文

发表时间:2009-01-01

发表刊物:计算机工程与应用

收录刊物:PKU、ISTIC、CSCD

卷号:45

期号:1

页面范围:140-143

ISSN号:1002-8331

关键字:信息提取;带有节点频度的文档对象模型树;节点频度;语义距离

摘要:提出了一种带有节点频度的扩展DOM树模型-BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取.该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息.方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离.针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法.