国家自然科学基金(61300192) 作品数:12 被引量:58 H指数:5 相关作者: 牛新征 佘堃 叶志佳 张宗华 梁锐 更多>> 相关机构: 电子科技大学 国家电网公司北京电力医院 上海交通大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于多特征匹配和Bloom filter的重复数据删除算法 被引量:3 2016年 针对EB(extreme binning)算法重复数据删除率低,磁盘I/O开销大的缺陷,提出基于多特征匹配和Bloom filter的重复数据删除算法DBMB(deduplication based on multi-feature matching and Bloom filter).将小文件聚合为局部性文件单元,作为一个整体进行去重处理,采用最大、最小以及中间数据块ID的多重相似性特征进行匹配,并基于Bloom filter优化磁盘数据块的查找和匹配过程.结果表明,DBMB算法能有效提升重复数据删除率,降低算法执行时间,同时减少处理小文件的内存开销,性能提升显著. 张宗华 屈英 叶志佳 牛新征关键词:重复数据删除 布隆过滤器 面向监测数据压缩的自适应SDT算法 被引量:5 2017年 为降低IT运维系统的实时监测数据量、提高数据存储效率,提出一种自适应的旋转门算法(adaptive swinging door trending,ASDT)。针对传统SDT算法存在抗噪性弱、参数选取困难等缺陷,ASDT首先通过最小二乘平滑处理,减小噪声数据对SDT趋势判断的影响;然后通过改进死区限值过滤算法,对经平滑处理后的数据进行压缩;最后基于相邻压缩区间标准差变化,自适应调整压缩精度参数。实验结果表明:在保证数据保真度的前提下,ASDT的仿真数据和真实数据上的压缩比分别提高60%和24%以上。 张宗华 叶志佳 牛新征关键词:数据压缩 自适应调整 基于FP-Tree模型的频繁轨迹模式挖掘方法 被引量:8 2016年 通过对经典频繁模式数据结构FP-tree的扩展与改进,提出了一种适用于处理轨迹数据的灵活高效的FP-tree轨迹挖掘方法(NFTM)。首先运用二维筛选和GPS格式过滤的方法对轨迹进行预处理,然后将有效数据经一次扫描后,生成按照真实轨迹顺序排列且具备时空属性的改进型FP-tree,使用动态数组存储模式挖掘过程中得到的候选集,根据用户的输入针对性输出相应时间和频率范围的频繁轨迹。最后通过与GSP算法、Prefixspan算法的对比测试表明,该算法具有更短执行时间和更优性能。 牛新征 牛嘉郡 苏大壮 佘堃关键词:FP-TREE 基于进化聚类的动态网络社团发现 被引量:8 2017年 社团的数目和时间平滑性的平衡因子一直是基于进化聚类的动态网络社团发现算法的最大的问题.提出一种基于标签的多目标优化的动态网络社团发现算法(LDMGA).借鉴多目标遗传算法思想,将进化聚类思想转换为多目标遗传算法优化问题,在保证当前时刻的聚类质量的同时,又能使当前聚类结果与前一时刻网络结构保持一致.该算法在初始化过程中加入标签传播算法,提高了初始个体的聚类质量.提出基于标签的变异算法,增强了算法的聚类效果和算法的收敛速度.同时,多目标遗传算法和标签算法的结合使算法可扩展性更强,运行时间随着节点或者边数目的增加呈线性增长.将该算法与目前的优秀算法在仿真数据集和真实数据集上进行对比实验,结果表明,该算法既有良好的聚类效果,又有良好的扩展性. 牛新征 司伟钰 佘堃关键词:进化聚类 动态网络 社团发现 基于多层核心集凝聚思想的视频关键帧提取 2016年 针对当前传统的关键帧提取算法准确度低,视频检索的查全率和查准率不高的问题,提出一种基于多层核心凝聚思想的视频关键帧提取算法。利用K-medoids算法优化多层核心集凝聚算法,用真实数据作为聚类中心的特性,对MULCA算法的凝聚粗化和凝聚细化两个重要过程进行改进,用其替代原粗化过程得到的顶层核心集,设计一种多层核心集凝聚算法(IMULCA),实现顶层核心集的快速准确定位,适当减少凝聚层数,简化算法的计算复杂性。将改进算法应用到视频关键帧提取中,实验结果表明,改进算法相对于原有算法能够更加有效地对视频关键帧进行提取。 梁锐 朱清新 胡娟关键词:关键帧 视频检索 基于多特征融合的深度视频自然语言描述方法 被引量:6 2017年 针对计算机对视频进行自动标注和描述准确率不高的问题,提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征,进行特征的融合,使用融合的特征训练基于长短期记忆(LSTM)的自然语言描述模型。通过不同的特征组合训练多个自然语言描述模型,在测试时再进行后期融合,即先选择一个模型获取当前输入的多个可能的输出,再使用其他模型计算当前输出的概率,对这些输出的概率进行加权求和,取概率最高的作为输出。此方法中的特征融合的方法包括前期融合:特征的拼接、不同特征对齐加权求和;后期融合:不同特征模型输出的概率的加权融合,使用前期融合的特征对已生成的LSTM模型进行微调。在标准测试集MSVD上进行实验,结果表明:融合不同类型的特征方法能够获得更高评测分值的提升;相同类型的特征融合的评测结果不会高于单个特征的分值;使用特征对预训练好的模型进行微调的方法效果较差。其中使用前期融合与后期融合相结合的方法生成的视频自然语言描述得到的METEOR评测分值为0.302,比目前查到的最高值高1.34%,表明该方法可以提升视频自动描述的准确性。 梁锐 朱清新 廖淑娇 牛新征关键词:视频语义分析 视频描述 递归神经网络 基于加权内容-结构网络和随机游走的社团划分算法 被引量:4 2017年 针对传统模块优化社团划分算法仅能利用网络的结构信息,而无法利用同样丰富的内容信息,导致划分精度较低的问题,提出一种结合内容属性并通过给连边加权来全面优化网络拓扑结构的社团划分算法CCSRW(Classification with Content-Structure and Random Walk).设计利用随机游走理论计算结构节点与内容节点间的相似性关系矩阵,并将结构节点映射到内容属性空间上,最终把社团划分问题转化为多维无监督聚类问题.通过在真实数据集上进行的全面实验分析,展示了相比于传统社团划分算法,本文的算法能更准确的描述网络结构,显著提高划分性能,并有效解决小社团不敏感问题,更适用于大规模复杂信息网络的社团划分. 牛新征 牛嘉郡 苏大壮 佘堃关键词:社团划分 随机游走 基于FPMAX的最大频繁项目集挖掘改进算法 被引量:9 2013年 挖掘事务数据库中的最大频繁项目集是数据挖掘领域一个重要的研究方向。基于FP-tree的FPMAX算法是目前较为高效与稳定的最大频繁项目集挖掘算法之一。然而对于稠密数据库中的挖掘,FPMAX会产生大量的冗余递归过程,导致额外的条件FP-tree构造开销。而且在支持度较低时,FPMAX则会因用于超集检测的全局MFItree较为庞大而导致超集检测的性能下降。为此提出FPMAX的改进算法FPMAX-reduce,其通过采用基于事务共同后缀的前瞻剪枝策略来减少挖掘过程中的冗余递归过程。当递归过程中产生的新条件FP-tree规模较小时,FPMAX-reduce通过构造条件MFI-tree来减小后续超集检测遍历的开销。性能试验表明,FPMAX-reduce算法通过有效的前瞻剪枝,在稠密事务数据库以及低支持度的情况下至多可将递归过程减少至原算法的一半以下,进而有效地提高了FPMAX算法的效率。 牛新征 佘堃关键词:频繁项目集 最大频繁项目集 FP-TREE FP-GROWTH 基于加权滑动平均的磁盘使用率预测模型 被引量:1 2016年 为能提前做好扩容准备,提出一种改进的加权滑动平均(weighted moving average,WMA)模型,用以预测未来短期内磁盘的使用率.针对磁盘使用率序列变化较为平缓、要求滞后较小的特性,采用自相关和偏自相关系数法对模型定阶,处理数据后,在不影响精度的前提下计算最小滞后值,并使用结合了拉依达准则的权重转移法来均衡权重,用多新息递推最小二乘法对参数进行更精确的估计,以提高预测的准确性.通过Matlab仿真实验可知,该算法预测误差小,滞后性弱,与原始WMA模型相比,具有更好的预测效果. 张宗华 张海全 李师航 牛新征关键词:计算技术 不完备信息系统的容差邻域熵和属性选择 被引量:1 2014年 邻域粗糙计算模型可以处理信息系统中名义属性和字符属性共存的问题而得到了广泛应用.现有的邻域粗糙计算方法仅讨论了其处理完备信息系统问题,然而实际应用中的数据往往是不完备的.针对这一问题,首先提出了可用于度量不完备信息系统的容差邻域熵;然后得出了一系列相关定义和性质,证明了容差邻域熵是香农熵在不完备信息系统上的自然推广;最后给出了基于容差邻域熵的属性选择算法.实验结果表明,所提出的算法避免了数据过分预处理而带来的冗余信息,使样本在算法选择的特征空间内保持了较高的分类精度,可以更好地处理信息系统不完备的问题. 曾凯 佘堃关键词:不完备信息系统 不确定性