房勇
- 作品数:1 被引量:5H指数:1
- 供职机构:复旦大学软件学院更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于DOM状态转换的隐网页信息抽取算法被引量:5
- 2015年
- 由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索;通过重放点击路径,自动完成目标节点的内容抓取;通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩,以缩减搜索空间,定义DOM树中候选节点到目标节点的距离作为h打分,进行启发式搜索。实验表明,所研究算法性能优良,对隐网页内容的抽取准确率达到89.48%,可应用在网页自动化测试、网页爬虫等领域。
- 房勇李银胜
- 关键词:WEB信息抽取