李慧敏 作品数:27 被引量:23 H指数:3 供职机构: 云南民族大学数学与计算机科学学院 更多>> 发文基金: 国家自然科学基金 云南省教育厅科学研究基金 云南省应用基础研究基金 更多>> 相关领域: 生物学 文化科学 自动化与计算机技术 理学 更多>>
基于双层BiGRU网络的哺乳动物组织m^(6)A甲基化位点预测 2023年 目的N6-甲基化腺苷(N6-methyladenosine,m^(6)A)是RNA中最常见、最丰富的化学修饰,在很多生物过程中发挥着重要作用。目前已经发展了一些预测m^(6)A甲基化位点的计算方法。然而,这些方法在针对不同物种或不同组织时,缺乏稳健性。为了提升对不同组织中m^(6)A甲基化位点预测的稳健性,本文提出一种能结合序列反向信息来提取数据更高级特征的双层双向门控循环单元(bidirectional gated recurrent unit,Bi GRU)网络模型。方法本文选取具有代表性的哺乳动物组织m^(6)A甲基化位点数据集作为训练数据,通过对模型网络、网络结构、层数和优化器等进行搭配,构建双层Bi GRU网络。结果将模型应用于人类、小鼠和大鼠共11个组织的m^(6)A甲基化位点预测上,并与其他方法在这11个组织上的预测能力进行了全面的比较。结果表明,本文构建的模型平均预测接受者操作特征曲线下面积(area under the receiver operating characteristiccurve,AUC)达到93.72%,与目前最好的预测方法持平,而预测准确率(accuracy,ACC)、敏感性(sensitivity,SN)、特异性(specificity,SP)和马修斯相关系数(Matthews correlation coefficient,MCC)分别为90.07%、90.30%、89.84%和80.17%,均高于目前的m^(6)A甲基化位点预测方法。结论和已有研究方法相比,本文方法对11个哺乳动物组织的m^(6)A甲基化位点的预测准确性均达到最高,说明本文方法具有较好的泛化能力。 李慧敏 陈鹏辉 唐轶 徐权峰 胡梦 王煜关键词:碱基序列 人核糖体蛋白基因启动子区域的转录调控元件分析(英文) 2012年 一些调控人核糖体蛋白(ribosomal protein,RP)基因转录的元件(如Sp1、YY1和GABP结合位点)已被发现,但人RP基因中很可能含有未知转录调控元件.为进一步了解RP基因的转录调控规律,利用频率比较分析方法和Z-score统计量,在人RP基因启动子序列中抽提出一批高频出现(over-represented)的DNA词(亦称模体).其中大部分模体与TRANSFAC数据库中收集的人基因转录因子结合位点(transcriptional factor binding sites,TFBSs)吻合.分析表明,这些模体主要富含碱基C、G或CG与AT含量相当.考察模体与基因转录起始位点(transcription start sites,TSS)的距离发现:超过60%的模体与TSS距离在400 bp以内,只有不到10%的模体与TSS距离900 bp以上.我们推测,抽提到的模体可能与人RP基因的转录调控有关.这些结果为进一步研究哺乳动物RP基因中的转录调控模式和构建基因调控网络具有理论指导意义. 李慧敏 陈丹关键词:核糖体蛋白基因 转录调控 真核核糖体蛋白基因转录调控位点的统计分析 核糖体蛋白基因具有共调控的特征,对其研究可以更好地理解基因转录调控的机理。对酵母核糖体蛋白基因的研究表明,在上游和内含子中都存在转录调控元件,而且探测到了一些潜在的转录因子结合位点。为了进一步了解真核核糖体基因转录调控的... 李慧敏关键词:核糖体 蛋白基因 基因转录 基因启动子 文献传递 基于双层卷积神经网络的DNA N4-胞嘧啶甲基化位点预测 2022年 DNA N4-胞嘧啶甲基化(N4-methylcytosine,4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预测准确率,提出了一种基于双层卷积神经网络的4mC位点预测模型.首先,将序列数据进行特征编码,搭建具有双卷积层和双池化层的卷积神经网络模型,采用L2范式正则化避免模型过拟合,并采用10折交叉验证保证模型预测的稳定性;其次,对模型参数进行调试,选取预测能力较高的参数组合进行模型训练;最后,将模型的4mC位点预测能力与几种已有算法进行比较.结果表明,双层卷积神经网络模型具有较好的预测性能和鲁棒性,优于基于一般机器学习和单层卷积神经网络的4mC位点预测算法,有效提高了4mC位点的预测能力. 陈鹏辉 徐权峰 李荣庭 王煜 胡梦 喻文霞 李慧敏 唐轶关键词:碱基序列 我国公益基金会资金管理研究
——以深圳壹基金为例 随着我国公益事业的发展,公益基金会作为公益组织中的一种重要类型发展迅速,规模不断扩大,至2016年末我国的公益基金会数量已达5711家,其资产总额达1383.02亿元。公益基金会已逐渐成为我国为社会提供公共服务,慈善救助... 李慧敏关键词:公益基金会 资金管理 小鼠核糖体蛋白基因中的组合转录调控元件分析 2016年 研究表明,第一内含子可能参与基因转录调控。利用Markov链方法在小鼠核糖体蛋白(ribosomal protein)基因上游至第一内含子序列中抽提出一批高频出现模体(over-represented motifs),这些模体大部分与TRANSFAC中收集的小鼠基因转录因子结合位点吻合,是潜在的调控元件。将这些模体两两组合,利用超几何分布(hypergeometric distribution)和曼-惠特尼U检验(Mann-Whitney U test)获得了133对潜在转录调控模体对,其中一些与已知具有相互作用的转录因子对吻合,且大部分为协同作用。对抽提的模体对在不同区域中的出现情况进行分析,发现模体对主要出现在"上游-上游"(95.5%)和"上游-内含子"(57.9%)区域。结果进一步支持了内含子参与转录调控的假设,并且推测上游与内含子之间具有转录协同作用。 李慧敏 杨志刚 江绍萍关键词:内含子 小鼠基因内含子中CpG岛和几个转录调控元件分析 2012年 内含子在基因转录调控中的作用已多次被实验报道,然而对其参与调控的普遍性还缺乏足够的理论支持。本研究利用计算分析方法,对小鼠基因内含子中的CpG岛(CpGisland)、TATA框(TATAbox)、CAAT框(CAATbox)以及GC框(GCbox)等元件的出现频率进行分析。结果发现,分别有56.01%、57.16%、65.88%和41.86%的第一内含子具有CpG岛、TATA框、CAAT框以及GC框,而它们在其它内含子中的平均出现频率则分别为14.07%、45.24%、49.91%和13.19%。即使考虑到不同位置的内含子,这些元件在第一内含子中的出现频率也显著高于它们在其它任何位置内含子中的出现频率。由于CpG岛、TATA框、CAAT框以及GC框均与基因的转录调控有关,据此推测小鼠第一内含子在基因转录调控过程中具有潜在的重要性。本研究结果为内含子参与转录调控提供了更多的理论依据。 李慧敏 陈丹关键词:小鼠 内含子 CPG岛 调控元件 统计学专业开设统计案例课程的必要性及课程模式探讨 2016年 本文根据目前统计学专业的课程设置及教学现状,阐述了开设统计案例课程的必要性,并根据云南民族大学的教学经验,对开设模式提出了建议。 李慧敏 江绍萍关键词:统计学 专业统计 课程模式 组合调控中过表达模体对距离的统计检验 被引量:2 2013年 揭示真核生物转录调控机制是生物信息学的一项重要研究内容。转录调控的一个重要特征是基因受多个转录因子的组合调控。在用系统生物学和数学建模的方法识别组合调控中的转录因子结合位点时,过表达模体对的距离检验是其关键步骤之一。本文对组合调控模体对距离检验的三种方法进行了综述,同时给出了三种检验的数学模型和具体检验方法。文章为研究基因的组合调控和探测潜在的过表达模体对提供理论支持。 陈丹 梁振霞 李慧敏关键词:数学模型 果蝇胚胎不同表达水平基因内含子序列特征的比较分析 2013年 对果蝇胚胎低表达和高表达水平基因内含子的序列结构进行分析,发现2种表达水平的基因内含子序列特征有明显差异.高表达基因的内含子一般比低表达基因的长,其中高表达基因第1内含子的平均长度是低表达基因的2.62倍,第2内含子的平均长度是低表达基因的1.79倍.两类基因第1内含子中的CpG岛含量最高,并且高表达基因内含子中CpG岛含量要高于低表达基因.此外,与低表达基因相比,TATA box、CAAT box和GC box在高表达基因内含子中出现的频数明显要高些,尤其是在第1内含子中.作者还提取出果蝇胚胎2种表达水平基因第1内含子中高频出现的6-mer简单重复序列,发现一些重复序列与实验得到的转录因子结合位点相符合.这些结果提示内含子特别是第1内含子有可能调控果蝇胚胎基因的转录从而影响基因的表达水平. 陈丹 李慧敏 张静 梁振霞关键词:基因表达水平 转录调控 内含子