国家自然科学基金(41275116) 作品数:9 被引量:42 H指数:3 相关作者: 薛胜军 许小龙 张洁 胡敏达 张佩云 更多>> 相关机构: 南京信息工程大学 武汉理工大学 计算机软件新技术国家重点实验室 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 农业科学 文化科学 更多>>
云环境下基于朴素贝叶斯的雷暴预报初探 被引量:3 2014年 雷暴是一种灾害性天气系统,对建筑和人类造成极大的伤害。因此,对雷暴的预报具有重要的意义。将传统的朴素贝叶斯分类方法进行并行化,在Hadoop云计算平台下利用NCEP 1.0×1.0历史再分析资料和江苏省闪电定位资料进行雷暴的预报,并与逐步回归分析法和神经网络方法进行比较。实验结果表明,云环境下的朴素贝叶斯分类方法在预报准确率和空报率等方面均优于逐步回归分析法,但其空报率略高于神经网络方法。总体而言,文中的算法对雷暴的预报有较好的效果,这为雷暴预报提供了一个新的思路。 薛胜军 吉锋 许小龙关键词:朴素贝叶斯 HADOOP 雷暴预报 云计算环境下气象大数据服务的应用 被引量:16 2016年 设计了云计算环境下气象大数据服务框架,该框架设计的气象服务主要包括气象业务服务、气象科研服务以及公共气象服务。MapReduce分布式处理技术可以有效地进行分布式处理服务,是提供气象大数据服务的基础计算架构。基于MapReduce对上海宝山站气象日值数据(2013年1-12月)进行了气温以及降水量统计,并给出了相应示例。云环境下气象大数据的应用研究可以提升整体气象业务服务水平,加快各地气象部门资源整合与资源共享的步伐,同时对于加快"大数据时代"气象信息化进程具有重要作用。 张洁 薛胜军关键词:云计算 气象服务 HADOOP MAPREDUCE 云计算环境下气象大数据服务的应用研究 随着气象信息化进程的不断加速,气象行业内部累积的气象数据不断增加。气象数据满足"大数据"数据量大、种类繁多、高处理速度需求以及高价值的特征。而气象大数据面临存储、索引与处理的挑战,云计算技术的主要技术,如:分布式文件系统... 张洁 薛胜军关键词:云计算 气象服务 HADOOP 文献传递 基于Hadoop的位图索引的空间和效率研究 2015年 位图索引是一种使用Bit位的索引,有着较高的效率,大多运用于属性基数相对较小的情况。它有着较多的重复数据,可进行压缩,压缩编码的改进是研究的一个热点。对现有COMPAX编码方式进行改进。基于Hadoop的位图索引,使用分布式处理机制,使得位图索引的执行效率得到提升,可以运用于现今的大数据环境中;以解决目前大量的信息数据的查找问题。在建立索引过程中同时使用改进后的COMPAX编码进行数据压缩,使得索引占用空间减小,进一步提高对索引处理效率。 薛胜军 厉志关键词:位图索引 大数据 数据查询 分布式处理 带禁忌约束的频繁模式并行挖掘研究 2013年 频繁模式挖掘技术在关联规则发现方面运用得十分普遍,已逐渐成为数据挖掘领域的研究热点之一。研究人员发现传统的频繁模式挖掘算法在挖掘过程中会产生大量的中间数据和用户不感兴趣的结果数据。这些数据在计算和存储方面的开销,对如今迅猛发展的海量数据挖掘来说无疑是一个挑战,严重影响了挖掘效率和准确性。针对这个问题,文章结合当下流行的Hadoop技术,对传统频繁模式挖掘算法进行分析和研究,提出一个带禁忌约束的频繁模式云挖掘算法模型。该算法模型利用Hadoop框架技术,对频繁模式挖掘过程中的模式长度和属性进行禁忌约束,分布并行地完成挖掘任务。实验结果显示,该算法模型在海量数据挖掘方面比传统算法更有优势。 薛胜军 赵洪昌关键词:数据挖掘 HADOOP 云环境下公平性优化的资源分配方法 被引量:15 2016年 针对云数据中心资源分配不均、效率不高、资源错位等问题,为了满足不同用户的需求,达到多种资源分配的公平性,实现资源的高效利用,提出了全局优势资源公平(GDRF)分配算法。GDRF算法采用多轮分配方式,即先通过用户已分配资源量确定分配资格,每轮再通过全局优势资源共享比和全局优势资源权重来确定具体的分配用户,分配过程充分考虑了资源的匹配情况,采用了max-min fairness思想的渐进填充方式,并且将多资源分配公平性统一度量模型运用到了算法中。实验基于一个Google集群数据模型与基于占优资源的多资源联合公平分配算法作了比较。实验结果表明,GDRF算法分配的虚拟机总量提高了12%,资源总利用率提高了0.5个百分点,公平评估值提高了约15%,并且该算法的资源组合分配的适应度较高,使得用户需求和供给更匹配。 薛胜军 胡敏达 许小龙关键词:云计算 资源分配 公平 云环境下能耗感知的公平性提升资源调度策略 被引量:1 2016年 针对云计算环境下大量的能源消耗和一些用户非法占有计算资源的问题,为了节约资源,同时提高系统的公平性,使所有用户能合理地使用数据中心的所有资源,提出一种基于能耗感知的节能公平的资源调度算法(FGRSA)。该算法能高效调度各种类型的资源使所有资源使用量达到一个相对的公平。通过CloudSim仿真平台,对提出的调度策略进行仿真实验。实验结果表明,与Greedy算法和Round Robin算法相比,FGRSA能够在大幅度降低系统能耗的同时,保证各类型资源的公平使用。 薛胜军 邱爽 许小龙关键词:云计算 资源调度 能耗模型 基于MapReduce的气象数据并行PK-means算法 被引量:3 2012年 随着气象信息化程度日益提高,气象数据呈指数级增长。由于数据量的过快增长,K-means算法很难满足实际应用需求,根据气象数据的特征,提出一种基于MapReduce的并行聚类算法PK-means,其中Map函数计算数据对象到中心点的距离,并重新标记新的聚类类别,Reduce函数根据中间结果计算新的聚类中心,然后迭代计算,中间迭代只计算中心点到所属类的所有点的距离,实验结果显示该算法具有很强的计算能力和可扩展性。 薛胜军 潘吴斌关键词:MAPREDUCE 大规模数据 基于云服务的信息共享平台研究 被引量:2 2014年 针对当前信息共享中心平台存在资源利用率低下、信息共享能力不强,以及信息化进程缓慢的现状,提出了利用开源云平台Hadoop构建基于云服务的信息共享平台(cloud-based information sharing platform,CBISP),以加快企业内部乃至行业范围内信息资源共享的步伐,进而解决企事业单位基础设施资源缺乏,资源利用率不足和信息化水平低下等问题。结果表明,CBISP对于提升信息共享中心服务水平和信息共享能力具有积极的支持和推动作用。 曾丹 许小龙 薛胜军关键词:信息资源共享 HADOOP 云计算 云平台下基于半朴素贝叶斯的降雨量预测 被引量:3 2016年 随着降雨量预测在中国的气象预报行业中日趋重要,降雨量预测的方法也越来越多。由于云平台可以有效地提高预测的效率和准确率,云平台也逐渐被应用到气象行业。目前我们运用的降雨量预测方法要求属性之间独立,但是很多气象要素之间并不独立,这就降低了预测的准确性。因此,结合并利用模糊集理论的相关知识,提出了一个基于云平台的半朴素贝叶斯预测降雨量的方法。为证明预测的准确性和高效性,建立了一个预测模型,用气象站提供的气象数据预测下个月的降雨量。实验结果证明,建立的模型与先前的模型相比,具有更高的预测准确性和效率。 薛胜军 张佩云 陈静怡关键词:模糊集理论