您的位置: 专家智库 > >

关冕

作品数:2 被引量:5H指数:2
供职机构:山东大学计算机科学与技术学院更多>>
发文基金:山东省自然科学基金山东省科技攻关计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇信息抽取
  • 2篇结构化数据
  • 2篇WEB论坛
  • 2篇WEB挖掘
  • 2篇抽取
  • 1篇基于实例学习
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇抽取方法

机构

  • 2篇山东大学

作者

  • 2篇关冕
  • 1篇马军

传媒

  • 1篇山东大学学报...

年份

  • 2篇2010
2 条 记 录,以下是 1-2
排序方式:
针对Web论坛的一种结构化数据自动抽取方法被引量:2
2010年
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。
关冕马军
关键词:结构化数据信息抽取WEB挖掘
Web论坛结构化数据抽取技术研究
随着国际互联网的日益普及和迅猛发展,论坛已成为网络上一个重要的数据源。它为人们提供了大量的关于各种题材的非常有价值的知识和信息。因此,近些年来越来越多的研究工作利用从论坛中抽取出来的信息建立各种网络应用。为了有效利用论坛...
关冕
关键词:WEB信息抽取结构化数据基于实例学习WEB挖掘
文献传递
共1页<1>
聚类工具0