国家自然科学基金(60471003) 作品数:39 被引量:80 H指数:5 相关作者: 王正志 杜耀华 倪青山 王广云 邱浪波 更多>> 相关机构: 国防科学技术大学 空军工程大学 广州市妇女儿童医疗中心 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 生物学 医药卫生 自动化与计算机技术 航空宇航科学技术 更多>>
一种基于特征筛选的原核生物启动子判别分析方法 被引量:7 2006年 启动子识别是研究基因转录调控的重要环节,但目前方法的识别正确率偏低。在深入分析原核启动子特征的基础上,提出了一种基于特征筛选的原核启动子判别分析方法,首先在启动子序列的组成特征、信号特征和结构特征中选取备选特征,为每个特征建立适当的描述模型,并对主要的保守模式采用复合模式模型;再通过模型计算对备选特征进行逐步筛选,优化特征集,将序列表示为组合特征向量;最终利用二次判别分析实现识别。对大肠杆菌和枯草杆菌实际启动子数据进行的刀切法测试验证了方法的有效性和通用性。对于大肠杆菌非编码区(70启动子,识别的平均正确率达到了85.8%,优于其它几种典型识别方法;对于大肠杆菌编码区内部)70启动子和其它几种原核启动子,平均正确率也都超过了80%。方法框架还具有良好的可扩展性,能够方便地容纳新特征,使识别性能不断提高。 杜耀华 王正志 倪青山 李冬冬关键词:原核生物 启动子识别 二次判别分析 基于支持向量机的人类5'非翻译区剪接位点识别 被引量:7 2005年 基因非编码区域剪接位点的识别是基因识别中一个非常具有挑战性的问题,尤其是5'非翻译区中剪接位点的识别。与一般剪接位点不同,5'非翻译区剪接位点的两侧不存在由编码到非编码的状态转移,所以通常的剪接位点识别算法在非翻译区的性能不太理想。文章采用了基于支持向量机的方法对5'非翻译区中的剪接位点进行识别。为了提高识别精度,采用了基于矩阵相似性度量的核函数参数选取方法,它能够简单快速地确定合适的核函数参数,进而提高核函数的识别性能。通过实验验证,经过参数选择后的支持向量机能够较好地识别5'非翻译区剪接位点。 晏春 杜耀华 高青斌 王正志关键词:支持向量机 核函数 参数选择 利用分散量理论辨识外膜蛋白 2008年 利用分散量的数学理论,提出了基于最小分散增量的蛋白质序列辨识方法.通过多种特征联合对蛋白质序列进行编码,并建立基于最小分散增量的分类器MID_OMP,应用于革兰氏阴性细菌外膜蛋白序列辨识.在数据集上的Jackknife测试中,MID_OMP辨识外膜蛋白和α螺旋跨膜蛋白的准确率达到95.7%,辨识外膜蛋白和球状蛋白的准确率达到91.0%;在14个细菌基因组内挖掘结果显示,MID_OMP具有较高的敏感性和特异性,预测结果的可信度明显优于另外一种OMPs挖掘工具TMBETA-GENOME. 邹凌云 王正志 黄教民关键词:外膜蛋白 判据搜索算法及其在DNA序列模式发现中的应用(英文) 被引量:2 2006年 模式发现是计算生物学一个重要的研究方向,但目前的大部分算法还不能保证获得最优的模式。将模式发现问题转化成层次图的路径搜索问题,推导了针对三个序列片段相似性关系的判据,以其作为剪枝规则提出并实现了一种深度优先的穷举搜索算法:判据搜索算法(CriterionSearchAlgorithm,CRISA)。理论分析表明,对于绝大多数模式发现问题,CRISA具有多项式的计算时间复杂度和线性的空间复杂度。对仿真的和实际的DNA序列数据的测试表明,CRISA能够快速而完全地识别出序列中所有的模式,并且获得了优于其它算法的总体评价。 杜耀华 李冬冬 王正志关键词:判据 深度优先搜索 层次图 RNA模式分析进展 2006年 研究表明,R N A模式在基因表达调控方面起着重要作用.由于RN A模式不仅与初级序列有关,更多的表现为高级结构(一般为二级结构)的保守性,所以R N A模式的识别比D N A模式的识别要复杂的多.近十几年里,对R N A模式分析作了大量的计算方面的研究,包括:R N A结构的预测、识别和已知的类型相似的R N A模式、在一组功能或进化相关的基因中找出共同的R N A模式.这里对上述3个方面的计算方法的发展和研究进行了综述. 赵英杰 王正志关键词:计算方法 一种基于多特征的大肠杆菌启动子判别算法 2006年 主要对从一段DNA序列中提取出信息以判别其中是否含有启动子的问题进行了研究。首先从固定长度的序列中提取成分特征和结构特征,然后将这些特征输入到一个非线性分类器中进行判别。测试结果显示,在正集&非编码区负集中,平均错误率降低为13.4%;在正集&编码区负集中,平均错误率降低到17.0%。表明该方法是非常有效的。 敖伟 王正志 杜耀华关键词:启动子 词频 VITERBI 基于滑动窗口的原核转录起始位点计算定位方法 被引量:3 2006年 转录起始位点的计算定位是基因转录调控研究的重要内容,但现有方法的识别性能较低。文章作者在已有原核启动子识别算法的基础上,提出了一种基于滑动窗口的原核转录起始位点计算定位方法,通过在合理限定的定位范围内对序列进行滑动扫描,来预测转录起始位点的位置。首先根据窗口序列的交迭组分特征和启动子其它特征分别建立二次判别分类器,用其计算对应位置的似然得分,再利用转录起始位点与翻译起始位点的间隔经验分布信息对似然得分进行修正,最后依照似然得分的分布情况由阈值定位算法确定预测位置。对大肠杆菌真实序列数据的测试结果表明,该定位算法可实现对真实转录起始位点位置的有效预测,与已有算法相比,当敏感性指标同为0.85左右时,特异性指标可从0.20提高至0.65,从而使得定位准确率提高了约20个百分点。 杜耀华 王正志 倪青山关键词:转录起始位点 相关向量机在肿瘤表达谱分类问题中的应用 被引量:3 2008年 基因芯片技术能够检测大量基因的表达水平,在肿瘤研究中得到日益广泛的应用。基于基因芯片表达谱的肿瘤分类诊断是肿瘤表达谱研究的一个热点,肿瘤表达谱分类是一个典型的高维度小样本分类问题,描述一个两步策略的分类方法。在测试的基因表达谱中存在大量的非差异表达冗余基因,通过一个有效的基因预选择策略得到一个较小的候选基因子集,然后建立基于相关向量机的分类预测模型。在4个真实的肿瘤表达谱数据上,与几种不同的方法进行比较,结果显示该方法可以得到更好的分类精度,同时表现出很好的稳定性。 邱浪波 王广云 王刚 王正志关键词:最小二乘支持向量机 相关向量机 利用序列保守模体和局部构象信息预测转录因子结合位点 被引量:6 2006年 转录因子结合位点的计算预测是研究基因转录调控的重要环节,但常用的位置特异得分矩阵方法预测特异性偏低.通过深入分析结合位点的生物特征,提出了一种综合利用序列保守模体和局部构象信息的结合位点预测方法,以极大相关得分矩阵作为保守模体的描述模型,并根据二苷参数模型计算位点序列的局部构象,将两类信息得分组合为多维特征向量,在二次判别分析的框架下进行训练和滑动预测.预测过程中还引入了位置信息量以优化似然得分和过滤备选结果.针对大肠杆菌CRP和Fis结合位点数据的留一法测试结果表明,描述模型的改进和多种信息的融合能有效地改善预测方法的性能,大幅度提高特异性. 杜耀华 倪青山 王正志关键词:转录因子结合位点 二次判别分析 基因表达缺失值的加权回归估计算法 被引量:5 2007年 在基因芯片实验中,数据缺失客观存在,并在一定程度上影响芯片数据后续分析结果的准确性。在不增加实验次数的情况下,缺失值估计是降低缺失数据对后续分析影响的有效方法。利用相似性信息的核加权函数来实现缺失值回归估计的局部化,提出了基于加权回归估计的基因表达缺失值估计算法。在两个不同类型的基因芯片数据上,将新方法与几种已知的方法进行了比较分析。实验结果表明,新的估计算法具有比传统缺失值估计算法更好的稳定性和估计准确度。 邱浪波 王广云 王正志关键词:缺失值