您的位置: 专家智库 > >

祁玉娟

作品数:1 被引量:1H指数:1
供职机构:湖南省第一师范学院更多>>
相关领域:文化科学更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇文化科学

主题

  • 1篇主题漂移
  • 1篇网页
  • 1篇网页分块
  • 1篇分块

机构

  • 1篇湖南省第一师...

作者

  • 1篇张玲
  • 1篇姜华
  • 1篇祁玉娟

传媒

  • 1篇计算机技术与...

年份

  • 1篇2017
1 条 记 录,以下是 1-1
排序方式:
改进的Shark-search算法在网络采集中的应用被引量:1
2017年
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。
张玲祁玉娟姜华
关键词:网页分块主题漂移
共1页<1>
聚类工具0