中国博士后科学基金(20110491530) 作品数:5 被引量:30 H指数:3 相关作者: 张永 张红蕊 张玉婷 于静雯 浮盼盼 更多>> 相关机构: 辽宁师范大学 大连理工大学 更多>> 发文基金: 中国博士后科学基金 大连市科学技术基金 辽宁省教育厅基金 更多>> 相关领域: 自动化与计算机技术 更多>>
海量数据离散化算法的并行设计与实现 被引量:1 2014年 连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。 张永 张红蕊 路婧威关键词:海量数据 并行化 连续属性离散化 HADOOP 基于小波包分解和近似熵的脑电信号分类 被引量:1 2015年 为提高脑电信号分类准确率,提出基于小波包分解和近似熵相结合的特征提取方法。该方法利用小波包对信号的低频和高频进行分解,用近似熵对得到的叶子结点进行计算得到特征值,然后将其输入支持向量机进行分类。实验结果表明,该方法在两种思维结合识别中正确率最高达到了97.37%,取得了较好的分类效果。 张玉婷 张永关键词:脑电信号 小波包分解 近似熵 支持向量机 基于集成的非均衡数据分类主动学习算法 被引量:4 2012年 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 李卓然 张永关键词:非均衡数据 基于分层聚类及重采样的大规模数据分类 被引量:5 2013年 针对大规模数据的分类问题,将监督学习与无监督学习结合起来,提出了一种基于分层聚类和重采样技术的支持向量机(SVM)分类方法。该方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。实验表明,所提方法可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果。 张永 浮盼盼 张玉婷关键词:海量数据 聚类 重采样 支持向量机 云计算环境下基于朴素贝叶斯的数据分类 被引量:19 2015年 针对朴素贝叶斯分类算法的特点,提出一种改进的特征选择方法。现代大规模数据分类在单机计算机上训练和测试时间过长,对此,在hadoop分布式平台下设计并实现了基于朴素贝叶斯的数据分类算法。实验结果表明,改进的算法能有效提高分类的正确率,所设计的并行朴素贝叶斯数据分类算法具有较高的执行效率,适用于海量数据的处理与分析。 张红蕊 张永 于静雯关键词:云计算 MAPREDUCE 朴素贝叶斯 数据分类