您的位置: 专家智库 > >

房勇

作品数:1 被引量:5H指数:1
供职机构:复旦大学软件学院更多>>
发文基金:国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇网页
  • 1篇网页信息
  • 1篇WEB
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇DOM
  • 1篇抽取
  • 1篇抽取算法

机构

  • 1篇复旦大学

作者

  • 1篇房勇

传媒

  • 1篇计算机应用与...

年份

  • 1篇2015
1 条 记 录,以下是 1-1
排序方式:
基于DOM状态转换的隐网页信息抽取算法被引量:5
2015年
由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索;通过重放点击路径,自动完成目标节点的内容抓取;通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩,以缩减搜索空间,定义DOM树中候选节点到目标节点的距离作为h打分,进行启发式搜索。实验表明,所研究算法性能优良,对隐网页内容的抽取准确率达到89.48%,可应用在网页自动化测试、网页爬虫等领域。
房勇李银胜
关键词:WEB信息抽取
共1页<1>
聚类工具0