李鹏霄
- 作品数:3 被引量:29H指数:2
- 供职机构:国家互联网应急中心更多>>
- 发文基金:国家自然科学基金中国博士后科学基金软件工程国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向大数据的分布式流处理技术综述被引量:16
- 2014年
- 随着大数据的到来,数据流处理技术又成为了新的研究热点.回顾了近期提出的面向大数据的流处理技术现状,并且从流处理模型上对这些技术进行了划分,重点分析了面向大数据的并行分布式的流处理模型的设计目标和架构,同时,重点讨论了并行分布式流处理模型的关键技术以及未来技术的展望.
- 张鹏李鹏霄李鹏霄任彦林海伦杨嵘
- 关键词:数据流并行化负载均衡故障容错大数据
- 基于向量自回归模型的微博隐式话题流行度预测被引量:1
- 2016年
- 现有话题流行度预测方法仅基于话题本身的特征进行流行度预测,未考虑不同话题间的相关性.然而在微博上下文不同的话题之间存在一定的相关性,特别是在同一个事件的不同话题之间.因此,文中利用动态话题模型探测微博中的隐式话题及其流行度时间序列,通过Jensen-Shannon散度和皮尔逊相关系数分别分析话题间的内容和时序相关度,然后在预测模型中引入话题时序相关性,提出基于向量自回归模型的微博隐式话题流行度预测算法.通过在真实微博数据上的实验分析可知,相比未考虑话题相关性的算法,文中算法具有更高的预测准确率和更好的模型拟合效果.
- 段东圣李鹏霄李玉华李瑞轩
- 面向异构大数据环境的数据脱敏模型被引量:12
- 2022年
- 不同场景下数据类型和脱敏需求的差异,使得传统的数据脱敏方法难以满足大数据背景下的用户隐私保护需求。如何实现异构大数据中敏感信息的精准定向、高效脱敏,从而更好地确保数据安全、可信和可用,是本领域的研究难点。提出了一种在异构大数据环境下,基于文本、图片、音频和数据库等异构数据的脱敏模型,并对4个关键模块进行了描述。通过脱敏数据预处理,实现不同应用场景下敏感数据的自动标注和分级设置。采用数据预脱敏处理方法,并从数据可用性、数据关联性、隐私保护度、时间和空间复杂度等5个维度进行脱敏效果评价,实现定制化脱敏策略。经过脱敏任务调度完成脱敏任务分配和执行,并支持用户对部分脱敏数据恢复。基于提出的异构大数据脱敏模型,对2种典型数据脱敏应用场景进行了验证分析,表明所提模型能够实现不同应用场景下异构敏感数据的高效脱敏。
- 佟玲玲李鹏霄段东圣任博雅李扬曦