孙廷凯 作品数:12 被引量:87 H指数:5 供职机构: 南京理工大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 江苏省自然科学基金 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 天文地球 更多>>
一种基于样本学习复杂度的不平衡数据过采样方法 被引量:2 2020年 在人们的生活中存在大量的不平衡数据,如何识别人们感兴趣的少数类是一个具有挑战性的问题。论文基于ADASYN算法中提出的样本学习复杂度的思想,设计了一种新的过采样方法LDSMOTE。在该方法中,少数类主样本的学习复杂度与该主样本在少数类和多数类样本空间的分布都有关,ADASYN只利用了邻域多数类样本分布信息,而LDSMOTE融合了局部少数类平均距离和局部多数类样本数的信息。不同于ADASYN中复杂度是离散值,论文中的复杂度是连续的值,更能表现不同主样本之间的差异性和复杂度的多样性。分类器使用支持向量机,对KEEL不平衡数据库中的19个数据集进行实验,结果表明,在超过半数的数据集上,LDSMOTE的Recall、G-mean和AUC性能优于SMOTE、Borderline-SMOTE以及ADASYN算法。 许皓 孙廷凯关键词:过采样 不平衡数据 基于相关性度量的伪主成分分析 被引量:3 2006年 采用数据样本间的相关性作为相似性度量,并引入样本的类信息,提出一种新的降维方法,即伪主成分分析(Pseudo-PCA),该方法尽可能地保持原样本的变化信息,同时又使得降维后的同类数据样本尽可能保持相似。此外,将这种思想方法成功推广到近年来提出的2DPCA,MatPCA和(2D)2PCA。在ORL,Yale和AR等人脸数据集上的实验表明,该类方法的识别率高于相应的基于欧氏距离的PCA,2DPCA,M atPCA和(2D)2PCA等方法。 孙廷凯 冯爱民 陈松灿关键词:主成分分析 类信息 欧氏距离 人脸识别 算法设计与分析课程教学改革探索 被引量:7 2012年 本文从算法设计与分析的课程特点出发,结合课程教学组的教学实践经验,在教学内容、教学方法、教学手段和考核方法等几方面进行了探讨,总结了几点教学改革经验。教学实践表明,这些教学经验在教学中收到了良好效果。 孙廷凯 於东军 余立功 刘传才 金忠基于随机下采样和SVR的蛋白质-ATP绑定位点预测 被引量:2 2015年 将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,在此提出一种基于随机下采样和支持向量回归的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,使用支持向量回归建立预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。在标准数据集上的实验结果以及与几种最新报道的预测方法的对比结果,验证了本文所述方法的有效性。 余健浩 孙廷凯嵌入数据结构信息的单类支持向量机及其线性规划算法 被引量:4 2009年 针对现有基于超平面的单类分类器未同时考虑目标数据全局与局部信息的不足,通过在单类支持向量机One-C lass SVM(OCSVM)算法中加入类内散度以反应目标数据的全局信息,提出了结构化单类支持向量机Structured OCSVM(SOCSVM),不仅使之具有全局与局部化学习的特点,同时也为诸多的SVM算法嵌入数据内在结构这类先验信息提供了统一框架。为进一步提高运算效率,在SOCSVM二次规划求解基础上,通过最小化目标数据均值到超平面的函数距离,提出了线性规划算法,同时也避免了SOCSVM必须以原点作为负类代表的不足。人工和真实数据集上的实验结果验证了嵌入目标数据结构信息的SOCSVM及其线性规划算法的有效性。 冯爱民 刘学军 孙廷凯关键词:单类分类器 支持向量机 结构信息 线性规划 Dijkstra最短路径算法的堆优化实验研究 被引量:8 2017年 Dijkstra最短路径算法是图论的经典算法。设有向图G有n个顶点和m条弧,则该算法的时间复杂度为Θ(m+n^2)。前人的理论研究表明,若用二叉堆或d堆作为辅助数据结构,可不同程度地降低算法的时间复杂度。但是,这些研究给出的都是比较松弛的上界描述。本文设计了一系列实验,利用二叉堆和d堆实现了该算法的优化,并通过模型拟合回归的方式研究了优化算法的时间复杂度。我们发现,对于稠密图,采用二叉堆优化算法,实际的时间复杂度可降低为m和nlogn的线性函数;而采用d堆,时间复杂度可降低为m、ndlog_dn、nlog_dn、dlog_dn和n的线性函数,其中的d值对复杂度有显著影响,变化趋势呈现某些共同特征,而最优d值位于[5,7]区间。 张翰林 关爱薇 傅珂 孙廷凯关键词:时间复杂度 双中心粒子群优化算法 被引量:28 2012年 粒子群优化(PSO)算法是一种新兴的群体智能优化技术,由于其原理简单、参数少、效果好等优点已经广泛应用于求解各类复杂优化问题.而影响该算法收敛速度和精度的2个主要因素是粒子个体极值与全局极值的更新方式.通过分析粒子的飞行轨迹和引入广义中心粒子和狭义中心粒子,提出双中心粒子群优化(double center particle swarm optimization,DCPSO)算法,在不增加算法复杂度条件下对粒子的个体极值和全局极值更新方式进行更新,从而改善了算法的收敛速度和精度.采用Rosenbrock和Rastrigrin等6个经典测试函数,按照固定迭达次数和固定时间长度运行2种方式进行测试,验证了新算法的可行性和有效性. 汤可宗 柳炳祥 杨静宇 孙廷凯关键词:粒子群优化 群体智能 极值 研究生“机器学习”课程教学改革实践与探讨 被引量:11 2012年 从研究生"机器学习"系列课程的特点出发,结合课程教学组在教学改革方面的实践经验,从教学内容的选择、教学方法的改进、教学手段和考核方法的改革等几方面进行探讨,总结了几点教学改革经验。倡导并实践了问题驱动教学法和互动研讨教学法,并利用网络教学资源、开源工具、多媒体技术等,将传统的课堂讲授模式拓展为多渠道、多形式的研讨式、探究式的互动教学模式,这些教学经验在教学实践中取得良好效果。 胡雪蕾 孙明明 孙廷凯 陆建峰关键词:问题驱动教学法 互动教学模式 “算法设计与分析”课程探究式教学改革实践 被引量:2 2017年 "算法设计与分析"是计算机相关专业的一门核心课程。笔者针对传统的"算法分析与设计"课程教学过程前后所发现的问题,通过凝练精品式算法案例、实施探究式教学方法、制定和完善考评激励机制等一系列教学改革,有效地提高了学生的学习积极性和主动性,提振了班风和学风,学习产出有了整体的提升。 孙廷凯 於东军 孔慧 张宏 陆建峰关键词:算法分析与设计 探究式教学 考评激励机制 高斯混合模型的上采样分析 2017年 在机器学习问题中,类别不平衡问题严重影响一些标准分类器的性能。因此,解决类别不平衡问题尤为重要。上采样是解决类不平衡问题的常用方法,其通过合成新的少数类样本来平衡类的分布。在文中,使用一种基于高斯混合模型的上采样方法来解决不平衡学习问题。通过高斯混合模型来模拟少数类的分布,在此基础上使用高斯模型来生成新的少数类样本。在UCI类别不平衡数据集上的实验结果表明,所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。 沈乐阳 孙廷凯关键词:支持向量机 高斯混合模型