山东省教育厅科技计划(J09LG02) 作品数:7 被引量:36 H指数:4 相关作者: 张化祥 计华 孙晓燕 刘一鸣 王灿伟 更多>> 相关机构: 山东师范大学 山东省分布式计算机软件新技术重点实验室 更多>> 发文基金: 山东省教育厅科技计划 山东省自然科学基金 山东省科技攻关计划 更多>> 相关领域: 自动化与计算机技术 更多>>
最值间距支持向量机 被引量:2 2012年 GEPSVM(Proximal Support Vector Machine Classification via Generalized Eigenvalues)是近年提出来的一种新的二分类SVM,其核心思想是通过求解广义特征方程得到两个最优超平面,然后通过计算样本到超平面的距离来决定样本所属类别。与传统SVM相比,GEPSVM降低了时间复杂度,但仍存在奇异性等问题。提出了一种新的算法TDMSVM(Twin Distance of Minimum and Maximum Support Vector Machine),其通过求解标准特征方程得到两个最优超平面,使超平面满足到本类样例的平均距离最小化,同时到另一类样例的平均距离最大化。通过理论分析和实验证明,与GEPSVM相比,TDMSVM有以下优势:进一步降低了时间复杂度;不需引入正则项,从而提高了泛化性能;克服了奇异性。 王至超 张化祥关键词:模式识别 特征向量 支持向量机 用于不均衡数据集分类的KNN算法 被引量:9 2011年 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 孙晓燕 张化祥 计华关键词:不均衡数据集 过抽样 交叉算子 决策树构建方法:向前两步优于一步 被引量:1 2010年 为提高搜索算法找到全局最优解的可能性,在C4.5算法的基础上,本文提出了向前两步的决策树(two-step forward decision tree,TSFDT)构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集上的实验结果表明,该算法明显优于C4.5算法。 张雯 张化祥 李明方 计华关键词:决策树 信息增益 C4.5算法 一种适合不平衡数据集的新型提升算法 被引量:3 2011年 提出了一种新的适用于不平衡数据集的Adaboost算法(ILAdaboost),该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习,由于抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。该算法在UCI的10个典型不平衡数据集上进行实验,在保证多数类分类精度的同时提高了少数类的分类精度以及GMA。 王灿伟 于治楼 张化祥关键词:不平衡数据集 ADABOOST 重采样 基于最近邻原则的半监督聚类算法 被引量:7 2011年 基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。 计华 张化祥 孙晓燕关键词:半监督聚类 约束信息 引入信息增益的层次聚类算法 被引量:6 2012年 层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。 刘一鸣 张化祥关键词:层次聚类 信息增益 属性加权 可变阈值的K-Means初始中心选择方法 被引量:8 2011年 K-Means算法随机选择聚类中心初始点,导致聚类器性能不稳定。对此,提出基于可变阈值的初始聚类中心选择方法(VTK-Means)。该算法选择距已有初始点距离大于一个阈值的样例作为初始聚类中心,并根据满足条件的初始聚类中心个数适当调整阈值。在10个UCI数据集上的实验结果表明,该算法性能明显优于K-Means算法。 刘一鸣 张化祥关键词:K-MEANS 聚类 初始聚类中心