“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项(2010ZX01042-001-003-004)
- 作品数:10 被引量:33H指数:4
- 相关作者:乐嘉锦王梅刘国华丁祥武孙莉更多>>
- 相关机构:东华大学南京大学更多>>
- 发文基金:国家科技重大专项国家自然科学基金上海市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- PBPP:列存储系统中基于传递块缓冲区的流水线并行处理
- 2014年
- 片上多核处理器(CMP)凭借其低功耗和低成本等优势迅速成为处理器市场的主角,它为多线程的实现提供了硬件支持。列存储技术在分析型应用中具有显著的优势。在列存储系统中,查询优化依然是最重要的问题之一。在列存储系统中,利用多核资源提高查询处理性能具有较大潜力。文中通过对查询执行器生成的物理查询树进行流水多线程设计,结合列存储的特点,建立传递块缓冲区,使主线程和辅助线程分别对传递块缓冲区读写,以提高查询性能。同时还提出使用操作系统中经典的"生产者和消费者"模式来解决线程之间的同步问题。提出的这些方法应用在实验室研发的列存储系统DWMS中,使用数据仓库基准测试集SSB验证了这些方法的有效性。实验结果表明,传递块缓冲区的设计使SQL的查询效率有了近50%的提升。
- 丁祥武张光辉
- 关键词:多线程多核并行处理
- 列存储数据仓库查询执行中重用缓冲区调度算法被引量:6
- 2011年
- 查询的中间结果重用是提高查询效率的重要手段.现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果.单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象.为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的调度算法.首先,基于操作结点在给定物理执行计划树中的相对位置及其操作所产生的中间结果的大小对操作结点提出重用度估计模型.其次,设计了基于模型估计结果的缓冲区调度算法.在每一个查询计划的执行过程中,根据其模型估计结果执行缓冲区调度算法,使得其产生的中间结果中更重要的部分能够更久地驻留在内存中,以提升查询性能.在数据仓库基准数据集SSB上的实验结果验证了方法的有效性.
- 张琦王梅乐嘉锦刘国华
- 关键词:查询执行数据仓库
- 列存储数据库中压缩位图索引技术被引量:3
- 2012年
- 为提高压缩码的利用率,提出一种适用于列存储数据库的压缩位图索引技术。定义反转、合并等操作,将所有计算的输入值与输出值格式化为位向量形式。通过活跃度衡量索引中位向量的复杂度,并对压缩位向量进行直接计算,优化where子句和group by子句在查询执行过程中的数据提取。在SSB数据集上的实验结果证明,该技术能提高29.7%~38.9%的压缩位图索引性能。
- 王梅杨思箫乐嘉锦
- 关键词:位图索引活跃度聚集查询
- 列存储数据仓库中Hash连接改进算法研究
- Hash连接是一种高效的连接算法.然而由于难以提前选择合适的桶数和散列函数,降低了Hash连接效率.该问题在列存储海量数据查询连接中,表现尤为明显.提出了一种基于桶内索引的Hash连接改进算法.该算法当某些桶内出现数据大...
- 孙莉郝大腾王梅
- 关键词:索引数据仓库
- 文献传递
- APWAH:一种自适应划分字对齐的混合位向量压缩技术
- 在对海量数据的查询执行中,高效地存储中间结果是提高查询效率的重要手段之一.现有的列存储系统大都主要关注于如何选择合理的物化时机来提高查询效率,而忽略了对中间结果的有效管理.首先,为了减小查询执行过程中中间结果的大小,提出...
- 丁祥武李清炳王梅
- 关键词:位运算
- 文献传递
- 列存储数据查询中的连接策略优化方法被引量:2
- 2013年
- 列存储数据查询优化的重点是列的连接策略.现有的列存储系统通过存储的改变来简化列的连接,致使列的连接缺少查询优化处理,策略单一且无法满足复杂查询.在剖析现有连接选择策略的基础上,提出一种新的连接策略优化方法,即首先利用基于规则的优化方法为列存储数据查询制定优化规则,过滤不可能产生最优计划的候选计划;然后设计了基于代价的优化算法,根据动态Huffman树和左深连接树原理对查询执行顺序进行改进,进一步减少候选计划的规模;根据列存储数据的特点将候选计划中每个连接节点的执行策略归纳为串行连接和并行连接两类,并在此基础上提出代价估计模型,进而可针对这两种连接策略进行代价估计和策略选择.最后在SSB数据集上通过实验证明了方法在列存储数据查询中的有效性.
- 孙莉李静刘国华
- 关键词:查询优化
- 列存储系统面向列的连接顺序优化研究被引量:1
- 2013年
- 连接操作是影响列存储数据查询效率的重要操作之一.对于列存储系统中的连接操作优化,以往的研究工作大多专注于对数据组织结构的优化以及辅助物理结构的建立上,极少涉及逻辑层特别是早期的连接策略优化.为此,根据列存储数据的特点和分析型查询需求的特征,提出了一种新的列存储连接优化方法.该方法采用提早优化的策略,使用"事实表下推"的优化规则,并在多事实表查询条件下引入浓密树进行连接顺序决策,以较小的时空复杂度获得"最优"的连接执行顺序.使用代价估计模型对提出的连接策略优化方法进行了理论验证.同时,在大规模数据仓库基准数据集SSB上通过实验验证了提早优化机制及下推规则的有效性.
- 王梅陆戌辰乐嘉锦
- 关键词:数据库查询优化
- 列存储数据仓库中基于概率的保序字符串压缩方法
- 2013年
- 数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性.
- 夏小玲李海燕王梅
- 列存储数据仓库中启发式查询优化机制被引量:11
- 2011年
- 研究和实践表明列存储更加适合于大规模数据集上的即席查询的"读优化"应用需求.然而由于列存储的处理对象是列,此时传统的基于规则的查询优化方法并不完全适用.文中首先比较了列存储系统中查询优化与行存储系统的不同,在此基础上提出适合于列存储的启发式查询优化机制,其中包括启发式优化策略、重写规则、左深连接树结构和相关算法.实验表明:该文提出的启发式优化机制能有效减少候选计划的规模,排除大量不可能生成最优计划的计划,使得查询处理代价和执行时间大大减小.
- 严秋玲孙莉王梅乐嘉锦刘国华
- 关键词:查询优化重写规则
- 使用MapReduce构建列存储数据的索引被引量:6
- 2014年
- 大数据的存储与分析是近年来数据库领域研究的热点,高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上,提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型,先在Map阶段完成数据划分,然后在Reduce阶段完成数据的排序,最后在数据有序的Reduce节点上创建RB+树索引,从而减少索引创建时因为RB+树内部节点递归分裂而产生的昂贵代价和树的高度,提高数据查询的性能。通过在真实数据集上进行实验,验证了所提出方法的有效性。
- 丁祥武李清炳乐嘉锦