浙江省公益性技术应用研究计划项目(2011C21076)
- 作品数:2 被引量:9H指数:2
- 相关作者:陈华辉卢鑫钱江波董一鸿徐媛媛更多>>
- 相关机构:宁波大学更多>>
- 发文基金:浙江省公益性技术应用研究计划项目浙江省自然科学基金博士科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的增量式数据集的相似性连接被引量:2
- 2014年
- 相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。
- 徐媛媛陈华辉
- 关键词:MAPREDUCE
- MapReduce框架下的不确定数据Top-k查询计算被引量:7
- 2013年
- Top-k查询是不确定性数据管理中普遍采用的一种技术.基于参数化排名函数的Top-k查询语义是近年来提出的各种查询语义的统一.文中针对海量不确定数据,提出一种基于MapReduce框架的Top-k计算的有效方法.通过分析基于参数化排名函数的不确定数据Top-k查询语义,设计一种获得未计算元组的排名函数值上界的算法,避免计算所有元组的排名函数值,解决Top-k计算中的剪枝问题.在MapReduce计算模型中提出两种不同的策略来实现该算法.文中针对单机环境和Hadoop分布式计算平台进行两组不同的对比实验.实验表明在处理海量不确定数据时,该算法在计算时间上有较高的性能提升.
- 卢鑫陈华辉董一鸿钱江波
- 关键词:不确定数据MAPREDUCE