您的位置: 专家智库 > >

秦攀

作品数:6 被引量:44H指数:3
供职机构:四川大学计算机学院更多>>
发文基金:国家自然科学基金中国博士后科学基金国家重点实验室开放基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 1篇专利

领域

  • 5篇自动化与计算...

主题

  • 3篇序列模式挖掘
  • 2篇TOP-K
  • 1篇信息增益
  • 1篇序列数据
  • 1篇云计算
  • 1篇时间序列
  • 1篇数据质量
  • 1篇特征提取
  • 1篇最小化
  • 1篇项集
  • 1篇列数
  • 1篇ISOLAT...
  • 1篇并行化
  • 1篇并行计算
  • 1篇TOP
  • 1篇FOREST
  • 1篇SPARK

机构

  • 6篇四川大学
  • 3篇南京邮电大学
  • 1篇广西师范学院
  • 1篇武汉大学
  • 1篇云南大学

作者

  • 6篇段磊
  • 6篇秦攀
  • 3篇邓松
  • 2篇唐常杰
  • 2篇杨皓
  • 2篇王文韬
  • 1篇王慧锋
  • 1篇左劼
  • 1篇秦江龙
  • 1篇元昌安
  • 1篇彭舰
  • 1篇张鹏

传媒

  • 1篇计算机研究与...
  • 1篇数据采集与处...
  • 1篇计算机工程与...
  • 1篇软件学报
  • 1篇计算机科学与...

年份

  • 3篇2017
  • 1篇2016
  • 2篇2015
6 条 记 录,以下是 1-6
排序方式:
带间隔约束的序列数据质量评价算法设计被引量:2
2015年
序列数据广泛存在于实际应用中,因此关于序列数据挖掘的算法研究一直都是热点。序列数据的质量关系到挖掘结果的可靠性,传统的数据质量评价方法多通过统计指标来分析数据的质量问题,但统计指标无法对非结构化序列数据中各元素之间的关系进行评估。为检测序列数据质量,提出了基于概率后缀树模型的序列数据质量评价算法。具体地,在满足间隔约束的前提下,根据数据质量可靠的序列数据样本生成概率后缀树,并根据概率后缀树对查询序列数据进行质量评价。最后通过真实序列数据集验证了算法的有效性、执行效率和伸缩性。
王慧锋段磊胡斌邓松王文韬秦攀
关键词:数据质量
一种以项集为序列元素的对比序列模式挖掘方法
本发明公开了一种以项集为序列元素的对比序列模式挖掘方法,所述方法包括:步骤1:输入以项集为元素的正例序列集D<Sub>+</Sub>和负例序列集D<Sub>–</Sub>,间隔约束<I>γ</I>,正例支持度阈值<I>α...
段磊杨皓秦攀
文献传递
基于Spark的Top-k对比序列模式挖掘被引量:7
2017年
对比序列模式(distinguishing sequential pattern,DSP)指在目标类序列集合中频繁出现,而在非目标类序列集合中不频繁出现的序列.对比序列模式能够描述2个序列集合间的差异,有着广泛的应用,例如:构建序列分类器,识别DNA序列的生物特征,特定人群行为分析.与挖掘满足支持度阈值要求的对比序列模式相比,挖掘对比度top-k对比序列模式能避免用户设置不恰当的支持度阈值.因而,更易于用户使用.但是现有的top-k对比序列模式挖掘算法难以处理大规模序列数据.对此,设计了一种基于Spark的top-k对比序列模式并行挖掘算法,称为SP-kDSP-Miner.此外,为了提高SP-kDSPMiner的效率,针对Spark结构的特点,设计了候选模式生成策略和若干剪枝策略,以及候选模式对比度的并行计算方法.通过在真实数据集与合成数据集上的实验,验证了SP-kDSP-Miner的有效性、执行效率和可扩展性.
张鹏段磊秦攀左劼唐常杰元昌安彭舰
关键词:并行计算SPARK
基于Isolation Forest的并行化异常探测设计被引量:15
2017年
异常探测具有广泛的应用,受到了工业界和学术界的共同关注。在众多异常探测方法中,Isolation Forest算法具有执行效率高、探测准确度好的特点,获得了众多应用。但是,传统Isolation Forest算法难以处理大规模数据。为解决此问题,设计了一种基于云计算平台的算法。具体地,使用Hadoop分布式存储系统和MapReduce分布式计算框架设计并实现了基于Isolation Forest的并行化异常探测算法PIFH。通过将探测模型构建和数据异常评价的过程并行化,提升了PIFH算法探测异常的执行效率,扩展了其应用范围。利用真实世界数据集验证了所提算法的执行效率和可扩展性。
侯泳旭段磊秦江龙秦攀唐常杰
关键词:云计算并行化
多源时间序列中具有显著时间间隔的Shapelet对挖掘
2016年
Shapelet作为时间序列特征,具有较好的可解释性。Shapelet在行为识别、聚类分析及异常检测等方向均得到了广泛应用。但在电力运行监测、医学图像分析以及流媒体监测等领域,时间序列具有多源、同步的特点,仅对单一源上的时间序列提取Shapelet可能丢失序列间相关性。在Shapelet概念基础上,本文提出p-Shapelet作为不同源的Shapelet间关于时间间隔的特征表达,从而实现分析不同源Shapelet间的相关性。具体地,为找出不同类别样本间时间间隔具有最显著差异的Shapelet对,设计并实现了并行化挖掘的算法p-Shapelet miner。算法采用信息增益对不同源间的Shapelet对进行评价,并找出能最大化信息增益的Shapelet对(p-Shapelet)。利用CMU人体动作捕捉数据集进行实验,验证了算法的有效性与执行效率。
李钟麒段磊胡斌邓松秦攀
关键词:时间序列特征提取信息增益
带间隔约束的Top-k对比序列模式挖掘被引量:22
2015年
对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法k DSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).k DSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了k DSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率.
杨皓段磊胡斌邓松王文韬秦攀
关键词:TOP-K
共1页<1>
聚类工具0