尚学群
- 作品数:33 被引量:82H指数:5
- 供职机构:西北工业大学计算机学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划陕西省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理医药卫生更多>>
- 从基因芯片数据快速有效地挖掘共调控基因
- 2010年
- 针对基因芯片数据高噪音、列(基因)数比行(实验条件)数多几个数量级的特殊性,为了进一步提高从基因芯片数据挖掘共调控基因的时间效率和挖掘结果的有效性,首先根据所有两两基因对之间的Pearson相关系数对原始完整数据集进行分组,然后使用列(基因)枚举方法对各组数据分别进行闭合频繁模式挖掘,并对活化和抑制共调控关系的挖掘分别进行处理。实验结果证明:算法快速有效地挖掘出了两种共调控基因。
- 赵倩尚学群
- 关键词:基因芯片数据
- 基于不确定PPI网络的功能模块挖掘
- 2011年
- 近年来,挖掘具有生物学意义的功能模块,吸引了很多人的关注。但是,生物信息学中的蛋白质交互(PPI)网络和其他的一些生物数据常常会由于实验检测方法的局限性而呈现出不确定性。以具有不确定性的PPI数据为研究对象,挖掘蛋白质复合物。引入了一些新概念,并给出了一个深度优先算法。使用MIPS数据库评估实验结果表明,该算法在精确度和覆盖率两个方面性能优良。在基因拓扑上分析实验结果证实了所得到的大多数蛋白质复合物具有很高的相似性。最后也对算法的可扩展性进行了验证。总之,可以有效地从不确定PPI网络中挖掘出功能模块。
- 孟雅尚学群缪苗王淼
- 关键词:功能模块相关度
- 面向金融风险预测的时序图神经网络综述
- 2024年
- 金融风险预测在金融市场监管和金融投资中扮演重要角色,近年来已成为人工智能和金融科技领域的热门研究主题.由于金融事件的实体之间存在复杂的投资、供应等关系,现有的金融风险预测研究常利用各种静态和动态的图结构来建模金融实体间的关系,并通过卷积图神经网络等方法将相关的图结构信息嵌入金融实体的特征表示中,使其能够同时表征金融风险相关的语义和结构信息.然而,以前的金融风险预测综述仅关注了基于静态图结构的研究,这些研究忽视了金融事件中实体间关系会随时间动态变化的特性,降低了风险预测结果的准确性.随着时序图神经网络的发展,越来越多的研究开始关注基于动态图结构的金融风险预测,对这些研究进行系统、全面的回顾有助于学习者构建面向金融风险预测研究的完整认知.根据从动态图中提取时序信息的不同途径,首先综述3类不同的时序图神经网络模型.然后,根据不同的图学习任务,分类介绍股价趋势风险预测,贷款违约风险预测,欺诈交易风险预测,以及洗钱和逃税风险预测共4个领域的金融风险预测研究.最后,总结现有时序图神经网络模型在金融风险预测方面遇到的难题和挑战,并展望未来研究的潜在方向.
- 宋凌云马卓源李战怀尚学群
- 关键词:贷款违约风险
- 一种基于蛋白质交互网络链接预测的新方法被引量:3
- 2012年
- 当前可用的生物数据在不断地迅速增长,仍有很多生物信息如蛋白质交互信息(protein-protein interac-tion,PPI)还未被发现,而这些潜在的或未知的信息对生物过程的研究是至关重要的。近年来,对未知生物信息的挖掘和研究吸引了很多人的关注。通过实验检测方法来发现这些信息是非常耗时耗力的,所以链接预测成为一种新的挖掘这些信息的指导方法。基于蛋白质交互网络并融合了基因表达数据信息,从拓扑和基因表达两个方面的信息来构建PPI权值网络,提出了一种在权值网络中基于相似度比较的链接预测的新方法来预测PPI网络中未知的交互信息。使用MIPS数据库评估了实验结果,表明了该算法有很好的准确率和良好的性能。
- 李晶尚学群郭阳李晓园
- 关键词:链接预测剪枝
- 基于权值图的基因芯片数据差异双聚类挖掘算法被引量:2
- 2011年
- 研究了从基因芯片中挖掘差异双聚类的算法。差异双聚类中的基因在不同类别的数据中表达水准不同,这样的差异双聚类可以有效地找出影响基因表达水平的关键实验因素以及对实验条件敏感的基因。传统的双聚类方法采取分别在两类基因数据中找出聚类,再进行比较以得到最终的差异双聚类,该策略的时间效率不高。为了快速地找出差异双聚类,提出一个全新的基于权值图的差异双聚类方法,该方法的主要创新之处在于直接在由两类数据构成的权值图上挖掘双聚类,避免了分别挖掘再比较的步骤。实验结果证实该算法具有较高的运行效率。
- 刁静霓尚学群王淼缪苗
- 关键词:聚类子空间聚类
- 基因表达数据中局部模式的查询被引量:1
- 2016年
- 基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的进步,促进了海量基因表达数据的产生,使得对高性能基因表达数据分析算法的需求极为迫切。现有方法大多数是通过批量挖掘的方法来分析数据,即使有通过查询方式来获取精确结果的方法,其全面性与性能也有待提高。为了提高数据分析的效率与准确性,首先提出一种基于前缀树的基因表达数据索引gIndex,然后给出了一种基于列关键词查询的保序子矩阵分析方法 GEQc。其不经过批量挖掘,只需要建立索引并通过关键词来完成正相关/负相关/时滞等模式的查询。实验结果表明,与现有方法相比,所提算法具有良好的数据分析效率与可扩展性。
- 姜涛李战怀尚学群陈伯林李卫榜
- 关键词:基因表达数据关键词查询
- 从基因表达数据中有效挖掘差异共表达双聚类——DiCluster算法被引量:1
- 2012年
- 双聚类是一种可以同时在基因和条件两个维度上分析基因表达数据的方法,它可以找出在部分条件下具有相似表达趋势的基因。已有的方法都是从一个数据集中挖掘双聚类。从生物意义上分析,从不同基因表达数据集中挖掘差异表达双聚类可以发现具有生物意义的转录因子等信息。因此,提出一种挖掘不同数据集上差异共表达双聚类的算法——DiCluster。该算法采用深度优先基因扩展方法,并引入了剪枝策略,有效挖掘最大差异表达双聚类。实验结果表明,DiCluster不仅比已有算法具有更高的效率,而且挖掘出的结果具有更好的统计学和生物学意义。
- 李晓园尚学群王淼
- 关键词:基因表达数据
- 利用人工智能预测癌症的易感性、复发性和生存期被引量:5
- 2022年
- 癌症具有较高的发病率和致死率,对人类健康具有重大威胁。癌症预后分析可以有效避免过度治疗及医疗资源的浪费,为医务人员及家属进行医疗决策提供科学依据,已成为癌症研究的必要条件。随着近年来人工智能技术的迅速发展,对癌症患者的预后情况进行自动化分析成为可能。此外,随着医疗信息化的发展,智慧医疗的理念受到广泛关注。癌症患者作为智慧医疗的重要组成部分,对其进行有效的智能预后分析十分必要。本文综述现有基于机器学习的癌症预后方法。首先,对机器学习与癌症预后进行概述,介绍癌症预后及相关的机器学习方法,分析机器学习在癌症预后中的应用;然后,对基于机器学习的癌症预后方法进行归纳,包括癌症易感性预测、癌症复发性预测、癌症生存期预测,梳理了它们的研究现状、涉及到的癌症类型与数据集、用到的机器学习方法及预后性能、特点、优势与不足;最后,对癌症预后方法进行总结与展望。
- 高美虹尚学群
- 关键词:人工智能
- 基于seeds集和频繁项集挖掘的半监督聚类算法被引量:2
- 2010年
- 半监督聚类在无监督学习中通过对少量监督信息的有效利用提高聚类性能。提出一种基于seeds集的半监督聚类算法,它采用Apiori算法对初始seeds集和扩大规模后seeds集的数据进行频繁项集挖掘,使得数据中存在的噪音数据和误标记数据得到净化、修正,以改善seeds集质量,提高聚类性能。该算法使用带权χ2测试这一数学模型作为分类规则度量指标,以对无标记数据进行类标签值预测。实验结果显示,所提出的结合了频繁项集挖掘和带权χ2测试的基于seeds集的半监督聚类算法不仅改善了seeds集质量,也提高了预测结果的精确度,优化了聚类性能。
- 赵倩尚学群王淼
- 关键词:半监督聚类频繁项集挖掘
- 相对行常量差异共表达双聚类挖掘算法被引量:1
- 2013年
- 在生物信息学上,挖掘差异共表达双聚类有助于研究衰老、癌变类变化的生物过程。以往的差异共表达双聚类定义仅仅从一组基因的角度来衡量差异,导致包含了很多噪声。为了克服上述缺点提出新的差异共表达支持度MiSupport,可以将一组基因的差异细化到基因级别;并由此定义提出MiCluster算法,可以在两个真实的基因芯片数据中挖掘最大的差异共表达双聚类。MiCluster算法首先基于两个基因芯片数据构建差异共表达权值图,然后基于权值图,采用样本扩展和层次扩展,并利用精确的候选产生方法和高效的剪枝策略,挖掘出最大的差异共表达双聚类。实验结果证明,MiCluster算法比现有的算法快速高效,而且通过均方误差(MSE)测试和基因本体(GO)评价,挖掘出来结果具有更大的统计意义和生物学意义。
- 谢华博尚学群王淼
- 关键词:基因芯片基因共表达