您的位置: 专家智库 > >

何昕

作品数:2 被引量:17H指数:2
供职机构:复旦大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

合作作者

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇页面
  • 2篇相似度
  • 2篇结构相似度
  • 2篇WEB页
  • 2篇WEB页面
  • 1篇树模型
  • 1篇树匹配
  • 1篇网页
  • 1篇网页结构
  • 1篇DOM

机构

  • 2篇复旦大学

作者

  • 2篇何昕
  • 1篇谢志鹏

传媒

  • 1篇计算机研究与...

年份

  • 1篇2008
  • 1篇2007
2 条 记 录,以下是 1-2
排序方式:
基于简单树匹配算法的Web页面结构相似性度量被引量:15
2007年
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.
何昕谢志鹏
关键词:树匹配结构相似度
Web页面结构相似性的算法研究及应用
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值。好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度、提高返回数据的质量、减少大量冗余数据...
何昕
关键词:WEB页面网页结构结构相似度
文献传递
共1页<1>
聚类工具0