您的位置: 专家智库 > >

钱立兵

作品数:3 被引量:4H指数:1
供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 3篇引擎
  • 3篇搜索
  • 3篇分布式
  • 3篇分布式搜索
  • 2篇搜索引擎
  • 2篇索引
  • 1篇倒排索引
  • 1篇行搜索
  • 1篇引擎模型
  • 1篇吞吐
  • 1篇吞吐量
  • 1篇分布式搜索引...
  • 1篇分布式索引
  • 1篇分类索引
  • 1篇WEB搜索
  • 1篇WEB搜索引...
  • 1篇并行搜索
  • 1篇查询
  • 1篇查询处理

机构

  • 3篇哈尔滨工业大...

作者

  • 3篇钱立兵
  • 3篇季振洲
  • 1篇吴昊

传媒

  • 1篇哈尔滨工业大...
  • 1篇高技术通讯
  • 1篇智能计算机与...

年份

  • 1篇2015
  • 2篇2014
3 条 记 录,以下是 1-3
排序方式:
一种改进的分布式搜索引擎模型被引量:1
2014年
为了解决传统分布式搜索引擎存在的搜索性能问题,从索引结构、查询算法方面改进了传统模型.提出了一种非集中的高并行化搜索模型,该模型按照文档主题对索引分类,对较长的倒排记录表采用位图结构,利用多线程技术对索引节点实现并行搜索算法(multi max score heap,MMSH).实验结果表明:改进模型中的索引分类方法与倒排表结构的位图策略,能够增强Merge层查询的针对性,降低Merge层节点的CPU和内存开销;在倒排表不能完全存入内存情况下,MMSH算法能够实现高度并行化查询,其查询效率高于经典的term-at-a-time算法,缩短了平均查找时间,提高了系统吞吐量.索引分类、位图结构以及并行查询算法能够避免查询的盲目性,改善了分布式搜索引擎的性能.
钱立兵季振洲吴昊
关键词:并行搜索
Web搜索引擎的一种检索结构优化方法被引量:1
2014年
为了提升Web引擎的检索服务性能和扩展性,提出了一种索引划分方法,依据该方法改进了检索结构,避免了冗余查询,并加速了内部并行化查询过程。按照文档主题和相似URL对索引文档分类,而索引节点内则按照词项划分,实现了索引节点查询间和查询内的并行。根据索引分类的结构,改进了系统内部查询逻辑,设计了Aggregator(简称Agg)进程队列,实现了异步处理高并发查询。实验结果表明,优化的Web引擎结构总体上能够降低查询开销,提高系统吞吐量,相对于传统Web搜索模型,其查询速度和吞吐量分别提高了20%和25%。
钱立兵季振洲
关键词:WEB搜索引擎分布式搜索吞吐量分类索引
分布式搜索引擎的模型综述被引量:2
2015年
本文综述了分布式搜索引擎的模型、结构和查询方法,并讨论了搜索引擎的评价指标。从搜索引擎的离线处理和在线处理讨论了搜索引擎的基本模块,在线查询过程速度决定了搜索引擎性能的关键因素;从分布式搜索引擎的模型上划分,搜索引擎包含四个主要子系统:网页爬虫系统、索引构建系统、检索系统和日志分析系统;倒排索引结构是以词典(dictionary)和倒排文件(inverted file)组成,分为文档编号递增排序和词频(或影响力)得分递减排序。然后讨论了当前搜索引擎典型的三类查询处理策略,并比较各自适应的条件。最后,综述评价搜索引擎的两个重要指标:查询效率和查询结果的质量,并列举定量评价公式。
钱立兵季振洲
关键词:分布式索引搜索引擎倒排索引查询处理
共1页<1>
聚类工具0