江苏省高校自然科学研究项目(13KJA520001) 作品数:13 被引量:52 H指数:4 相关作者: 张莉 李凡长 夏佩佩 王邦军 黄晓娟 更多>> 相关机构: 苏州大学 江苏省计算机信息处理技术重点实验室 苏州思必驰信息科技有限公司 更多>> 发文基金: 江苏省高校自然科学研究项目 江苏省自然科学基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
一种基于支持向量数据描述的特征选择算法 被引量:4 2015年 已有基于支持向量数据描述的特征选择方法计算量较大,导致特征选择的时间过长。针对此问题,提出了一种新的基于支持向量数据描述的特征选择算法。新方法的特征选择是通过超球体球心方向上的能量大小来决定且采用了递归特征消除方式来逐渐剔除掉冗余特征。在Leukemia数据集上的实验结果表明,新方法能够进行快速的特征选择,且所选择的特征对后续的分类是有效的。 曹晋 张莉 李凡长关键词:支持向量数据描述 基因表达 基于马氏距离的分段矢量量化时间序列分类 被引量:2 2016年 提出一种基于马氏距离的分段矢量量化时间序列分类(Mahalanobis distance-based time series classification using PVQA,M PVQA)算法。该算法在继承传统算法时间复杂度的基础上,引入马氏距离,克服了欧氏距离容易受模式特征量纲影响的缺点,提高了算法精度。首先,在训练时采用分段矢量量化近似方法获得码本,然后以马氏距离为相似性度量对时间序列进行分段重构。对重构后的时间序列,同样基于马氏距离为相似性度量进行判别。在4个时间序列数据集上进行的试验结果验证了所提方法在时间序列表示和分类上的优越性。 陶志伟 张莉关键词:时间序列 码本 欧氏距离 一种相似性学习算法及其在人脸识别中的应用 被引量:3 2014年 传统的支持向量机相似性学习算法在构造样本对时,会考虑所有的原始训练样本,致使样本对空间和原样本空间呈平方关系,而过多的训练样本对会降低训练速度。为此,提出一种改进的支持向量机相似性学习算法,并应用到人脸识别中。引入二元样本对方法构造样本对,采用K近邻算法减少不相似样本对的生成,从而加快支持向量机的训练速度,同时使用随机降维方法来降低人脸数据的维数。实验结果表明,与基于差空间样本对和差绝对值样本对的算法相比,该算法可获得更高的识别率。 夏佩佩 张莉关键词:支持向量机 K近邻算法 人脸识别 不平衡数据学习算法在相似性学习中的应用 被引量:1 2014年 在现实问题中,相似性学习的样本对存在不平衡现象,即相似性样本对的数量会远小于不相似性样本对的数量.针对此问题,文中提出两种样本对构造方法——不相似K近邻-相似K近邻(DKNN-SKNN)和不相似K近邻-相似K远邻(DKNN-SKFN).运用这两种方法可有针对性地选择相似性学习样本对,不仅可加快支持向量机的训练过程,而且在一定程度上解决样本对之间的不平衡问题.在多个数据集上进行文中方法和经典的重采样方法的对比实验,结果表明DKNN-SKNN和DKNN-SKFN具有良好性能. 夏佩佩 张莉关键词:支持向量机 K近邻 重采样 基于类别信息的邻域保持嵌入算法 被引量:3 2015年 邻域保持嵌入通常被广泛用于发现高维数据的固有内在维数。为了充分利用样本的类别信息,构建了一个具有判别信息的邻接矩阵,其可以使同类样本点更加紧凑而异类样本点更加疏远。在此基础上,提出了基于类别信息的邻域保持嵌入算法。基于类别信息的邻域保持嵌入算法在不破坏原始高维数据局部几何结构的同时,可以使处于不同子流形上的样本点尽量分开。在UCI数据集和ORL人脸数据集上的实验结果表明,基于类别信息的邻域保持嵌入算法具有较高的识别率。 包兴 张莉 赵梦梦 杨季文关键词:降维 邻接矩阵 类别信息 人脸识别 密度惩罚支持向量数据描述 2014年 基于相对密度概念,文中提出一种密度惩罚的支持向量数据描述方法.该方法把相对密度和对样本的误分惩罚关联起来.如果样本的相对密度较大,则其是目标样本的可能性较大,因此需加大其误分的惩罚力度.同理相对密度小的样本,有可能是位于边界上的点或噪声点,相应的误分惩罚应减小.在UCI数据集上的实验结果表明,文中方法比标准支持向量数据描述及密度诱导的支持向量数据描述都有更好的描述性能. 张莉 张海飞 周伟达 林颖 李凡长关键词:支持向量数据描述 相对密度 核方法 基于属性约简和支持向量机集成的乳腺癌诊断决策 被引量:3 2015年 针对遗传算法(GA)与支持向量机(SVM)集成相结合的疾病诊断方法存在属性冗余的问题,提出了一种改进的约简和诊断乳腺癌决策方法。该方法将最小化约简属性个数、最大化区分矩阵可区别属性的个数以及最大化约简属性对决策属性的依赖度这三种目标函数相结合作为GA的适应度函数。在约简属性后取多个子集,以便利用SVM集成学习。在UCI数据库中乳腺癌数据集的实验表明,与原始的SVM算法相比,该方法在分类诊断的准确度以及敏感性方面有一定的提高,其中分类准确度至少提高了2%。 卢星凝 张莉关键词:粗糙集 支持向量机 属性约简 乳腺癌诊断 遗传算法 改进的多类支持向量机递归特征消除在癌症多分类中的应用 被引量:8 2015年 为处理癌症多分类问题,已经提出了多类支持向量机递归特征消除(MSVM-RFE)方法,但该方法考虑的是所有子分类器的权重融合,忽略了各子分类器自身挑选特征的能力。为提高多分类问题的识别率,提出了一种改进的多类支持向量机递归特征消除(MMSVM-RFE)方法。所提方法利用一对多策略把多类问题化解为多个两类问题,每个两类问题均采用支持向量机递归特征消除来逐渐剔除掉冗余特征,得到一个特征子集;然后将得到的多个特征子集合并得到最终的特征子集;最后用SVM分类器对获得的特征子集进行建模。在3个基因数据集上的实验结果表明,改进的算法整体识别率提高了大约2%,单个类别的精度有大幅度提升甚至100%。与随机森林、k近邻分类器以及主成分分析(PCA)降维方法的比较均验证了所提算法的优势。 黄晓娟 张莉关键词:支持向量机 癌症分类 基因数据 基于单核苷酸统计和支持向量机集成的人类基因启动子识别 被引量:1 2015年 为高效地判别人类基因启动子,提出了一种基于单核苷酸统计和支持向量机集成的人类基因启动子识别算法。首先通过基因单核苷酸统计,从而将一个基因数据集分为C偏好和G偏好两个子集;然后分别对这两个子集提取DNA刚性特征、词频统计特征和Cp G岛特征;最后采用多个支持向量机(SVM)集成的方式来学习这三种特征,并讨论了三种集成方式,包括单层SVM集成、双层SVM集成和级联SVM集成。实验结果表明所提算法能够提高人类基因启动子识别的敏感性和特异性,其中双层SVM集成的敏感性达到79.51%,且级联SVM集成的特异性高达84.58%。 徐文轩 张莉关键词:CPG岛 KL散度 支持向量机 支持向量机在高考成绩预测分析中的应用 被引量:18 2017年 支持向量机作为一种机器学习算法因其良好的推广性和强大的非线性处理能力而令人瞩目.为此将支持向量机与国家高考的实际数据相结合,以具体高校的高考模拟考试成绩为主要训练数据,进行学生的高考成绩预测.实验考虑了三种情形.一是通过六次模拟考试的特征分来预测高考的特征分;二是通过六次模拟考试和高考的特征分来预测高考的录取批次;三是通过六次模拟考试的特征分和高考的预测特征分来预测高考的录取批次.通过与神经网络算法的比较,实验结果均表明了支持向量机方法的稳定性和良好的预测性. 张莉 卢星凝 陆从林 王邦军 李凡长关键词:支持向量机 高考 神经网络