国家科技重大专项(2010ZX01042-001-003)
- 作品数:4 被引量:134H指数:3
- 相关作者:陈吉荣乐嘉锦张勇王元珍曹忠升更多>>
- 相关机构:东华大学华中科技大学更多>>
- 发文基金:国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop生态系统的大数据解决方案综述被引量:119
- 2013年
- 一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。
- 陈吉荣乐嘉锦
- 关键词:大数据MAPREDUCEHDFS
- 面向标记安全数据库的Skyline立方体算法
- 2013年
- 为了提高Skyline查询的数据安全性和响应速度,提出了标记Skyline立方体概念.标记Skyline立方体面向标记安全数据库,符合强制访问控制的读访问规则.它由所有不同标记用户的Skyline查询结果组成,通过预计算这种立方体,能迅速响应每个不同标记用户的Skyline查询.为了高效计算标记Skyline立方体,设计并实现了一个基于共享策略的算法.该算法结合Skyline特点和标记特点进行了优化.利用标记支配关系所蕴含的点集包含关系,通过迭代实现计算结果共享,避免了独立计算立方体中每个Skyline所导致的低效率.
- 班鹏新王元珍朱虹张勇
- 关键词:数据安全查询处理SKYLINE查询访问控制
- 基于形态拟合的时间序列距离计算被引量:4
- 2012年
- 针对现有的距离度量方法度量准确度低且计算效率低的问题,提出了基于形态拟合的距离度量算法.该算法使用滑动聚集平均近似方法对序列进行分段降维处理,计算降维后的分段序列的动态弯曲路径,并计算处于动态弯曲路径上的分段序列之间的欧式距离,以所有分段序列的欧式距离的累积值作为最终的距离计算结果.实验表明基于形态拟合的距离度量算法具有度量准确度高且计算效率高的优点.
- 张勇王元珍曹忠升
- 关键词:时间序列
- 基于MapReduce的Hadoop大表导入编程模型被引量:13
- 2013年
- 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。
- 陈吉荣乐嘉锦
- 关键词:编程模型HADOOPMAPREDUCEHADOOP分布式文件系统