曹付元 作品数:70 被引量:371 H指数:10 供职机构: 山西大学 更多>> 发文基金: 国家自然科学基金 山西高校科技研究开发项目 山西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 交通运输工程 更多>>
基于SQL的粗糙集属性约简方法 被引量:4 2008年 建立粗糙集模型和SQL语言之间的关系,给出信息系统中基于SQL语言的属性集区分能力、对象集的上下近似、属性重要性、核、约简等概念,提出基于属性集区分能力的完备属性约简算法。实验结果表明了该算法的有效性,为粗糙集理论更广泛地应用于具体的实践提供了一种方法。 姜广 曹付元 张倚弛 高嘉伟关键词:粗糙集 一种基于解耦策略的全场景图生成方法 本发明一种基于解耦策略的全场景图生成方法属于视觉理解领域,本发明在全景分割阶段,将要检测的目标对象解耦为物体对象和背景对象,通过使用不同的解码器达到增强位置学习的效果,从而更好的提取物体与背景的特征;在关系匹配阶段,通过... 曹付元 王嘉锡邻域模型在入侵检测中的应用 2015年 根据对象邻域的分离度和耦合度确定初始聚类中心,提出一种基于邻域模型的k-means改进算法,并以KDD CUP 99数据集为对象,对入侵检测进行了仿真实验.结果显示,改进后的算法在入侵检测率和误检率方面均优于IKCM算法和传统的k-means算法. 杨森 曹付元关键词:邻域模型 入侵检测 检测率 误检率 一种基于候选谓词关系偏差的无偏场景图生成方法 本发明一种基于候选谓词关系偏差的无偏场景图生成方法属于计算机视觉理解领域,本发明利用候选谓词之间相似性的关系调节模型对于头部谓词和尾部谓词的平衡,使之可以在以往生成去偏场景图的基础上将语义相似的谓词进行区分,并取得了显著... 曹付元 郝昊宇基于密度峰值聚类的自适应欠采样方法 被引量:10 2020年 基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优. 崔彩霞 崔彩霞 曹付元关键词:不平衡数据 欠采样 融合多因素的兴趣点协同推荐方法研究 被引量:12 2019年 兴趣点(Point-of-Interest,POI)推荐是为用户推荐可能感兴趣的地理位置的一项任务,是基于位置社交网络(Location-Based Social Networks,LBSN)服务中的重要研究内容。针对目前POI推荐准确率较低、推荐结果缺乏个性化、情感倾向因素融入差等问题,在综合分析兴趣点的地理位置、分类偏好、流行度、社交与情感倾向等相关影响因素的基础上,提出了融合多因素的兴趣点协同推荐模型(GCSR)。首先,根据POI地理位置数据计算地理相关分数;其次,根据用户的类别偏好,结合POI流行度定义分类偏好分数;然后,根据社交关系计算用户之间的社交关系强度,通过挖掘评论文本计算用户的情感倾向分数,并将二者与协同过滤推荐技术有效结合,从而得到社交情感分数;最后,将地理相关分数、分类偏好分数与社交情感分数有效融合,向用户推荐Top-N兴趣点。在Foursquare真实签到数据集上进行的多组对比实验显示,与基线模型中最好的JRA相比,GCSR模型能够获得更好的推荐效果,准确率和召回率平均提高了1.7%和0.6%。 陈炯 张虎 曹付元关键词:情感倾向 社交关系 一种基于SQL语言的粗糙集属性约简方法 一种基于SQL语言的粗糙集属性约简方法,该方法利用标准SQL语言中的GROUP BY子句对信息系统分组得到的元组数与原信息系统元组数的比值作为属性区分能力的度量,对信息系统的属性集生成的幂集,将幂集中的所有元素按照基数大... 曹付元 梁吉业 姜广 宁姝文献传递 一种基于结构和属性的图聚类算法研究 被引量:1 2016年 图是一种有效、简单而系统的建模方式,如何有效、准确的进行图聚类是目前的一个研究热点.本文提出一种基于结构和属性的图聚类算法,首先,针对传统k-means算法对初始聚类中心敏感的问题,提出一种基于相似度的初始聚类中心算法,对结构—属性相似度矩阵的行进行求和,按照从大到小顺序提取前K个不重叠值所对应的顶点作为初始聚类中心;其次,提出一种动态属性权重确定方法,根据上一次迭代后的聚类结果,考虑属性的不同取值数量以及属性值的分布情况,确定下一轮聚类时顶点属性的权重;再次,利用动态属性权重,计算节点间的属性—结构相似度,进行k-means聚类;最后,通过实验验证本文算法的正确性和有效性. 李钝 李伦 张行进 郑志蕴 曹付元关键词:K-MEANS算法 相似度 持续学习的研究进展与趋势 被引量:1 2024年 随着深度学习技术的发展与应用,特别是资源受限场景和数据安全场景对序列任务和数据进行快速学习需求的增多,持续学习逐渐成为机器学习领域关注的一个新热点.不同于人类所具备的持续学习和迁移知识的能力,现有深度学习模型在序列学习过程中容易遭受灾难性遗忘的问题.因此,如何在动态、非平稳的序列任务及流式数据中不断学习新知识、同时保留旧知识是持续学习研究的核心.首先,通过对近年来持续学习国内外相关工作的调研与总结,将持续学习方法分为基于回放、基于约束、基于结构三大类,并对这3类方法做进一步的细分.具体而言,根据所使用的样本来源将基于回放的方法细分为采样回放、生成回放、伪样本回放3类;根据训练约束的来源将基于约束的方法细分为参数约束、梯度约束、数据约束3类;根据对于模型结构的使用方式将基于结构的方法细分为参数隔离、模型拓展2类.通过对比相关工作的创新点,对各类方法的优缺点进行总结.其次,对国内外研究现状进行分析.最后,针对持续学习与其他领域相结合的未来发展方向进行展望. 李文斌 熊亚锟 范祉辰 邓波 曹付元 高阳关键词:知识迁移 含缺失标签的大规模多标签分类算法 被引量:2 2022年 在对大规模多标签数据进行人工标注时极易产生标签的缺失。现有算法大多利用被所有实例共享的全局标签相关性来解决该问题,即对不同实例而言,标签之间的相关性是相同的。然而在实际应用中,不同实例的标签相关性并非完全相同,此时采用局部方式获取的标签相关性将更加准确。因此,本文提出一种基于局部标签相关性的解决方法。该方法利用局部标签相关性来恢复缺失标签,利用低秩矩阵分解技术来构造适用于大规模数据的分类器。此外,为了加快模型的训练,该方法将这两个过程融合到一个统一的框架中,并采用迭代优化的方式进行求解。大量实验结果表明,该方法在预测准确度上至少比现有算法高2个百分点,在训练速度上至少提升5个百分点。 刘依璐 曹付元