您的位置: 专家智库 > >

闫宏飞

作品数:54 被引量:281H指数:10
供职机构:北京大学更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术文化科学经济管理建筑科学更多>>

文献类型

  • 34篇期刊文章
  • 11篇专利
  • 6篇会议论文
  • 1篇学位论文

领域

  • 38篇自动化与计算...
  • 5篇文化科学
  • 2篇经济管理
  • 1篇建筑科学
  • 1篇理学

主题

  • 17篇索引
  • 13篇引擎
  • 13篇搜索
  • 13篇搜索引擎
  • 10篇信息检索
  • 9篇用户
  • 9篇查询
  • 7篇网络
  • 5篇网页
  • 5篇抽取
  • 4篇文档
  • 4篇互联
  • 3篇倒排索引
  • 3篇用户查询
  • 3篇股票
  • 3篇WEB
  • 2篇段落
  • 2篇选词
  • 2篇循环神经网络
  • 2篇用户偏好

机构

  • 52篇北京大学
  • 5篇北京师范大学
  • 1篇哈尔滨医科大...
  • 1篇北京理工大学
  • 1篇中国人民大学
  • 1篇中国矿业大学...
  • 1篇中国科学院软...
  • 1篇淘宝(中国)...
  • 1篇南京网感至察...

作者

  • 52篇闫宏飞
  • 9篇李晓明
  • 7篇陈翀
  • 6篇孟涛
  • 6篇王继民
  • 6篇李晓明
  • 5篇何靖
  • 5篇树柏涵
  • 5篇陈维政
  • 4篇赵鑫
  • 4篇赵鑫
  • 3篇毛先领
  • 3篇张旭东
  • 3篇彭波
  • 3篇单栋栋
  • 2篇朱家稷
  • 2篇谢正茂
  • 2篇李静静
  • 2篇徐谷子
  • 2篇刘晓兵

传媒

  • 5篇计算机研究与...
  • 5篇情报学报
  • 5篇中文信息学报
  • 3篇清华大学学报...
  • 3篇广西师范大学...
  • 3篇计算机科学与...
  • 3篇第三届全国搜...
  • 2篇郑州大学学报...
  • 1篇电子学报
  • 1篇计算机学报
  • 1篇计算机工程
  • 1篇华南理工大学...
  • 1篇软件学报
  • 1篇山东大学学报...
  • 1篇重庆理工大学...
  • 1篇情报工程
  • 1篇全国搜索引擎...

年份

  • 2篇2020
  • 4篇2019
  • 1篇2018
  • 3篇2017
  • 5篇2016
  • 2篇2015
  • 4篇2014
  • 1篇2013
  • 4篇2012
  • 2篇2011
  • 4篇2010
  • 3篇2009
  • 1篇2008
  • 1篇2007
  • 1篇2006
  • 8篇2005
  • 1篇2004
  • 3篇2003
  • 2篇2002
54 条 记 录,以下是 1-10
排序方式:
网页去噪:研究综述被引量:18
2010年
互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.
毛先领何靖闫宏飞
关键词:网页去噪数据挖掘网络挖掘信息检索万维网
网络资源命名及用户命名行为的分析被引量:4
2009年
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等。每个资源的内容具有完整独立性。它们是数字图书馆、教学资源库、专业内容库藏的重要组成。网络资源的一大特点是命名模式不规范,给检索利用带来极大不便。本文以2003~2006年间搜集的61万文件构成的16 284个网络资源为对象,用统计的方法考察网络资源命名特点及其中体现的用户命名习惯。包括资源及其内部子目录、文件的名字长度分布,字符类型熵、常用符号、高频片段模式、语义类型等,并分析无序命名中蕴含的用户命名习惯。本文的意义一方面有助于从混乱命名中净化和提取对检索查询有用的信息,另一方面有助于揭示网络用户参与海量网络资源共享的行为习惯。
陈翀闫宏飞
关键词:互联网网络资源
网页变化与增量搜集技术被引量:34
2006年
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.
孟涛王继民闫宏飞
关键词:调度策略
搜索引擎动态摘要算法被引量:1
2009年
搜索引擎摘要的选取原则、算法规则一直没有明确的框架或算法,以形成用户查询为中心的动态摘要为出发点,给出了动态摘要算法实现的形式化原则,并具体实现了一种动态摘要算法.与百度搜索引擎的动态摘要相比较,实验结果表明,算法一致性比百度搜索引擎的一致性高出6%.
树柏涵闫宏飞
一种评价搜索引擎信息覆盖率的模型及其验证被引量:13
2003年
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 .
孟涛闫宏飞李晓明
关键词:搜索引擎采样权值计算
一种词汇共现算法及共现词对检索系统排序的影响被引量:15
2005年
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。
陈翀彭波闫宏飞王继民
关键词:排序信息检索
一种搜索引擎动态摘要提取方法
本发明公开了一种搜索引擎动态摘要提取方法,所述方法包括以下步骤:获取用户输入的查询词;根据所述查询词,截取摘要候选段落;获取所述候选段落的段权值;选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。本...
闫宏飞树柏涵李晓明
文献传递
基于网络表示学习的个性化商品推荐被引量:26
2019年
近些年来,互联网不断普及,其应用场景也在不断增加.电子商务是互联网普及、成熟的一大重要产物.这种新型的商业模式,便利了大众的生活,同时也创造了巨大的利润.对于电子商务而言,推荐系统是其中最关键的组成部分.推荐系统可以针对不同的用户,推荐其感兴趣的商品.好的推荐系统无论是对于用户体验还是公司盈利而言,都有着非常正面的作用.近几年间,网络表示学习受到观注,出现了一些利用网络表示学习的推荐算法研究.将网络表示学习应用于推荐系统中乃至商品推荐中,可以有效地利用近期网络表示学习研究成果.该文提出了一种利用网络表示学习进行个性化商品推荐的方法 PGE(Product Graph Embedding).首先,作者通过历史购买记录获取商品的顺序信息,从而构建商品网络.基于商品网络和网络表示学习算法,商品可以被映射至低维向量空间中.一旦作者获取了商品的低维向量表示,动态的用户偏好便可以基于用户购买过的商品记录及商品的时序性线性计算得出,并和商品映射到相同的低维向量空间中.由此,商品和用户的相关性可利用商品和用户的低维向量相似度进行评估.作者在京东数据集上进行实验.实验表明,作者的算法在个性化商品推荐方面相较于最好的基准方法在P@10上提升了10%以上,这显示出了作者算法的优越性.
李宇琦陈维政闫宏飞李晓明
利用维基百科实体增强基于图的多文档摘要被引量:1
2016年
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。
陈维政严睿闫宏飞李晓明
关键词:多文档摘要
基于用户浏览时间的点击模型被引量:3
2011年
用户的点击行为会受到用户的浏览行为、周围文档的特征等因素的影响,故在分析用户点击日志时不能直接将用户点击解释为文档相关性.为了更加准确地获得文档的相关性特征,文中提出了基于用户浏览时间的点击模型.假设文档原文的相关性会影响用户浏览该文档原文的时间,即文档越相关用户浏览文档的耗时越长,这样便可利用用户浏览文档的时间来推测文档的相关程度;经过分析,确定使用指数分布来描述浏览时间;最后通过实验验证了该模型的有效性.结果表明,所提出的模型能够比较好地估计文档的相关性,更加准确地预测用户的点击情况,其性能优于现有的点击模型.
何靖袁文清闫宏飞
关键词:搜索引擎日志
共6页<123456>
聚类工具0