王鹏
- 作品数:3 被引量:17H指数:2
- 供职机构:山西大学计算机与信息技术学院更多>>
- 发文基金:山西省自然科学基金山西省回国留学人员科研经费资助项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于层次概念的用户兴趣模型研究被引量:9
- 2008年
- 使用基于关键词匹配的方法,分析了HTML语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如和;另一类起局部修饰作用,强调了网页的部分内容,如。从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型。实验表明,这种方法有一定的可行性。
- 张彦张永奎安增波王鹏
- 关键词:层次分析用户模型个性化服务中文信息处理
- 基于新闻网页主题要素的网页去重方法研究
- 网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后, 通过抽取的时间和地点短语抽取新...
- 王鹏张永奎
- 关键词:去重算法
- 文献传递
- 基于新闻网页主题要素的网页去重方法研究被引量:9
- 2007年
- 网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。
- 王鹏张永奎张彦刘睿
- 关键词:去重算法