您的位置: 专家智库 > >

孟涛

作品数:14 被引量:74H指数:4
供职机构:北京大学信息科学技术学院更多>>
发文基金:国家自然科学基金国家教育部博士点基金中国博士后科学基金更多>>
相关领域:自动化与计算机技术建筑科学理学文化科学更多>>

文献类型

  • 9篇期刊文章
  • 3篇会议论文
  • 2篇学位论文

领域

  • 13篇自动化与计算...
  • 1篇建筑科学
  • 1篇文化科学
  • 1篇理学

主题

  • 8篇引擎
  • 8篇搜索
  • 8篇搜索引擎
  • 8篇索引
  • 5篇用户
  • 5篇用户日志
  • 5篇日志
  • 2篇搜索引擎日志
  • 2篇权值
  • 2篇权值计算
  • 2篇系统模型
  • 1篇调度
  • 1篇调度策略
  • 1篇多任务
  • 1篇信息检索
  • 1篇应用系统
  • 1篇增量式
  • 1篇支持向量
  • 1篇支持向量回归
  • 1篇日志挖掘

机构

  • 14篇北京大学

作者

  • 14篇孟涛
  • 10篇王继民
  • 6篇闫宏飞
  • 3篇彭波
  • 2篇李晓明
  • 1篇李雷明子
  • 1篇龚笔宏

传媒

  • 2篇情报学报
  • 1篇电子学报
  • 1篇清华大学学报...
  • 1篇计算机工程
  • 1篇华南理工大学...
  • 1篇软件学报
  • 1篇北京邮电大学...
  • 1篇数字图书馆论...
  • 1篇第三届全国搜...
  • 1篇全国搜索引擎...

年份

  • 1篇2011
  • 2篇2007
  • 4篇2006
  • 5篇2005
  • 2篇2003
14 条 记 录,以下是 1-10
排序方式:
基于搜索引擎日志发现相近Web查询被引量:4
2005年
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.
王继民彭波孟涛
关键词:搜索引擎用户日志
一个增量搜集中国Web的系统模型及其实现
针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发...
孟涛闫宏飞王继民
关键词:系统模型
文献传递
利用支持向量回归确定相关Web查询被引量:1
2006年
对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关W eb查询的新方法.对一个给定的W eb查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关W eb查询.实验结果表明该方法具有较高的准确度.
王继民彭波孟涛
关键词:搜索引擎用户日志支持向量回归
一种评价搜索引擎信息覆盖率的模型及其验证
搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信...
孟涛闫宏飞李晓明
关键词:搜索引擎权值计算
文献传递
美国"SST之争"的研究
孟涛
关键词:SST公众公共决策
一种评价搜索引擎信息覆盖率的模型及其验证被引量:13
2003年
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 .
孟涛闫宏飞李晓明
关键词:搜索引擎采样权值计算
基于搜索引擎日志发现相近Web查询
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL...
王继民彭波孟涛
关键词:搜索引擎用户日志
文献传递
基于自动搜集技术的网页数量与演化的估计方法研究
本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下: ⑴建立了一个网页覆盖率评测模型。配合该模型的应用,提出了两种网页采样方法,并使用两类典型的网页权值,分别从数量和质量的角度上分析...
孟涛
关键词:网络服务信息检索数据挖掘
一个增量搜集中国W eb的系统模型及其实现被引量:11
2005年
针对中国W eb的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力。提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理。针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案。对增量搜集的两类目标——变化网页和新网页,探讨了相应的搜集策略。介绍了该模型的实现和性能状况。该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
孟涛闫宏飞王继民
关键词:增量式系统模型
Web搜索引擎日志挖掘研究框架被引量:4
2011年
搜索引擎日志记录了用户与系统交互的整个过程。对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律,有效改善搜索引擎系统的性能。在对国内外相关研究进行系统梳理和总结的基础上,文章提出了一个Web搜索引擎日志挖掘的研究框架,主要包括日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。
王继民李雷明子孟涛
关键词:搜索引擎用户日志WEB使用挖掘
共2页<12>
聚类工具0