河南省教育厅科学技术研究重点项目(13A520651)
- 作品数:14 被引量:58H指数:5
- 相关作者:石磊陶永才卫琳曹仰杰姚瑶更多>>
- 相关机构:郑州大学中州大学铁道警察学院更多>>
- 发文基金:河南省教育厅科学技术研究重点项目河南省教育厅自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术交通运输工程电子电信更多>>
- 基于加权动态兴趣度的微博个性化推荐被引量:12
- 2014年
- 针对微博信息量大、用户兴趣随时间变化特征,提出一种基于加权动态兴趣度(WDDI)的微博个性化推荐模型。WDDI模型考虑微博转发特征,并引入时间因子,利用微博主题模型基于转发的狄利克雷分配(RT-LDA)对用户微博进行研究,建立用户对主题的个体动态兴趣模型。通过用户与其关注用户的相似度和交互频率获取用户的群体动态兴趣,将用户个体兴趣与群体兴趣加权结合得到加权动态主题兴趣模型。对用户接收的新微博按动态兴趣度降序排列,实现微博动态个性化推荐。实验表明,WDDI模型较之传统推荐模型,在微博服务中能够更准确地反映用户动态兴趣。
- 陶永才何宗真石磊卫琳曹仰杰
- 关键词:加权主题模型个性化推荐
- 基于负载均衡的Hadoop动态延迟调度机制被引量:5
- 2015年
- 调度问题作为影响Hadoop集群性能的关键因素而成为研究的热点.延迟调度是常用的提高数据本地性和Hadoop集群性能的方法,但现有的延迟调度算法基于固定的等待时间,而且没有充分考虑集群的负载均衡.本文提出基于负载均衡的动态延迟调度机制DDS(Dynamic Delay Scheduling).DDS首先基于灰色预测模型,预测未来时刻空闲节点的到达速率;然后结合集群负载状况和作业执行进度,给每个任务设置合理的延迟等待时间,避免任务的无效等待.任务调度充分考虑节点的实际负载量,防止节点负载过重而导致任务执行缓慢甚至失败,从而缩短作业的总完成时间.实验表明,DDS在作业的总完成时间和负载均衡方面优于传统的延迟调度算法.
- 陶永才李文洁石磊刘磊卫琳曹仰杰
- 关键词:HADOOP海量数据
- 碰撞思维的光纤网络均衡调度研究被引量:1
- 2017年
- 针对传统光纤网络均衡调度方法性能差、能耗高的不足,提出基于碰撞思维的光纤网络均衡调度方法。首先分析光波信号传输中反射和折射的碰撞过程,提取数据碰撞的冲突特征,求解通信信号的不同时延;构建基于碰撞思维的调度模型,选取合适的调度目标参数,合理分配光纤网络节点数据采集和传输的时间,完成对冲突碰撞数据信号的分离处理,最终实现光纤网络的均衡调度。试验证明提出的方法能够有效地解决光纤网络拥塞的问题,优化光纤网络的调度性能,并且节省节点能耗。
- 杨浩何鹏
- 关键词:光纤网络
- 基于预散列和索引的MapReduce数据连接处理优化
- 2015年
- 针对现有MapReduce在大规模集群上进行海量数据连接处理操作时的效率问题,提出一种基于预散列和索引技术的M apReduce数据连接处理机制.该机制对M ap结果数据先进行预散列处理,建立对应对的索引信息,然后根据索引信息计算相同key值数据的连接及处理复杂度,最后基于连接复杂度为Reducer节点分配任务数据量,实现负载均衡.实验结果显示,本文提出的MapReduce数据连接处理机制能够有效实现Reducer节点负载均衡,提高数据连接处理操作的效率.
- 刘嘉高宇飞吴保东陶永才
- 关键词:云计算数据连接索引散列HADOOP
- 一种基于QoS的自适应失效检测算法
- 2015年
- 自适应失效检测要求失效检测器能够根据实际应用和网络负载变化动态地改变检测的质量。由于互连网络动态多变,缺乏自适应机制的失效检测器难以满足应用对Qo S的需求。检测速度和精度是自适应失效检测器的关键。对现有自适应失效检测算法进行研究、分析,提出一种基于Qo S的失效检测算法。对历史心跳消息间隔时间采用幂律加权计算其均值,并按照指数分布模型计算下一个消息延迟值,实现一种Qo S-AFD自适应失效检测算法。实验及分析表明该算法具有较高的检测速度和准确性。
- 卫琳张龙涛石磊陶永才曹仰杰
- 关键词:高可用性服务质量心跳技术分布式系统
- 基于时间序列预测的自适应失效检测模型被引量:1
- 2014年
- 失效检测是实现分布式系统高可用性的重要保障技术,其本质属于非线性时间序列预测问题.最小二乘支持向量回归算法是非线性时间序列预测领域的有效方法之一,在小样本空间和预测精度等方面有一定优势.传统失效检测算法基于概率统计模型计算下一心跳的到达时间,受限于某种概率分布且需要较大数据量,存在一定局限性.实际应用中常面临小样本空间,为此本文提出FD-LSSVR(Failure Detection-Least Squares Sport Vector Regression)模型并进行了讨论.针对现有自适应失效检测算法需考虑离群值这一问题,模型引入聚类分析法过滤对预测结果影响较大的离群值.实验结果表明,FD-LSSVR模型在检测时间和准确度方面均有较好表现,可用以缓解子网络延迟对失效检测的影响.
- 石磊景京卫琳陶永才曹仰杰
- 关键词:时间序列预测
- 一种基于页面聚类的Web概念化建模新方法被引量:2
- 2015年
- Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现Web结构.此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性.
- 姚瑶王战红石磊
- 关键词:MARKOV聚类
- 云环境下基于二维节点矩阵的分级多表连接
- 2014年
- 随着"大数据"时代的到来,分布式数据处理得到了广泛的应用和发展.在基于云计算的海量数据处理中,复杂处理要求逐渐增多,数据分析通常需要跨越多个数据集,因此亟需高效的多表连接机制.现有的基于MapReduce的多表连接机制多采用串行级联方式实现多个不同数据集连接,操作灵活但效率不高.本文在分析现有并行连接模型的基础上,提出基于二维节点矩阵的分级多表连接模型TD-HMJ.TD-HMJ在一次Map过程中处理全部连接属性,Reduce过程建立二维节点矩阵实现多组3(或2)表并行连接,并通过多级Reduce过程实现多组间连接.理论分析和实验表明TD-HMJ减少了数据传输量,缩短了多表连接时间,提高了连接效率.
- 陶永才周梦雪石磊卫琳曹仰杰
- 关键词:MAPREDUCE海量数据云计算多表连接
- MapReduce计算模型下基于虚拟分区的数据倾斜处理方法被引量:5
- 2015年
- 针对MapReduce计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR-SH在Map阶段采用虚拟分区,使得键值对分散存储,为后续重分区提供更优分区组合;在Reduce阶段,HVBR-SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区,并确保重分区后最大分区的数据量最小,加快整个Reduce阶段的执行速度.对比实验结果表明,HVBR-SH算法能有效平衡各个Reduce任务的输入规模并控制运行时间,有效改善了Reduce输入倾斜问题,提高了M apReduce任务的执行效率.
- 高宇飞曹仰杰陶永才石磊
- 关键词:MAPREDUCE
- 基于用户粉丝聚类现象的微博僵尸用户检测被引量:8
- 2015年
- 随着微博人气的日益高涨,僵尸用户的数量正以惊人的速度增长,虚假导致的微博信任危机严重影响了微博的发展.目前普遍依据关注数、粉丝数、原创和转发信息频率等用户基本属性来判定僵尸粉.然而,微博用户类型纷繁复杂,存在大量的误判和漏判现象.本文通过从用户的粉丝中挖掘凝聚子群,并结合用户的社会网络关系,提出一种基于用户粉丝聚类现象的僵尸粉检测模型.实验结果表明,本模型只需要少量信息就可以有效地对僵尸粉进行检测.
- 陶永才王晓慧石磊卫琳曹仰杰
- 关键词:社会网络