王占伟
- 作品数:5 被引量:33H指数:1
- 供职机构:中国人民大学信息学院数据工程与知识工程实验室更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 可扩展并行内存数据库系统:ScaMMDBⅡ
- 面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP...
- 黄伟王占伟孙妍王会举张延松王珊
- 关键词:聚集函数
- 文献传递
- 海量数据分析的One-size-fits-all OLAP技术被引量:32
- 2011年
- 传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率.
- 张延松焦敏王占伟王珊周烜
- 关键词:OLAP星型模型
- 可扩展并行内存数据库系统:ScaMMDBⅡ
- 面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP...
- 黄伟王占伟孙妍王会举张延松王珊
- 关键词:聚集函数
- 内存数据库可控的page-color优化技术研究被引量:1
- 2011年
- page-color的研究集中在如何通过有效的cache分区技术隔离弱局部性数据与强局部性数据的访问冲突,减少数据处理过程中由弱局部性数据产生的cache污染对强局部性数据的影响.但这些优化技术依赖于特殊的处理器硬件设计、操作系统内核功能的扩展或同时依赖于硬件的特殊设计和操作系统扩展功能的支持.提出了应用软件层上基于page-color的W-order扫描优化技术,不依赖特殊的处理器硬件设计,最小化依赖操作系统的扩展功能.研究的核心思想是通过page-color控制弱局部性数据的页面地址访问顺序,将弱局部性数据与强局部性数据在cache中的冲突域由整个地址空间缩小为指定page-color的地址空间内,从而降低整体的cachemiss,降低数据处理时的延迟.与典型的page-coloring技术相比,不需要扩展操作系统内核功能,具有更好的内存地址空间利用率,能够实现查询内数据集粒度上的cache分区优化.实验中模拟了内存数据库中典型的多表连接算法,通过模拟cache行为模式和在实际查询处理时使用cache监测工具验证了W-order区优化技术的可行性与cache性能.实验结果表明,通过在应用软件层次上对顺序访问操作的控制,能够有效地降低cachemiss,提高内存数据库查询处理性能.
- 张延松王占伟孙妍王珊
- 关键词:内存数据库
- 海量数据分析的One-size-fits-all OLAP技术
- 通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术。通过对TPC-H...
- 张延松焦敏王占伟王珊周烜
- 关键词:OLAP技术关系数据库海量数据星型模型