快速准确地计算出转录组表达水平对转录组研究具有重要的作用。本文针对伽玛分布的概率模型(Gamma model for exon array data,GME)在处理大规模外显子芯片数据集上效率低下的特点,提出一种充分利用多核处理机或者集群环境来提高效率的并行计算方法。首先分析GME模型的原理,其次分析模型并行算法的选择,最后在不同规模的数据集上分析并行计算的效率。通过实验验证了并行计算极大地提高了模型的计算效率。实验结果表明,与先前的串行计算相比,并行计算使得GME模型更适用于大规模的外显子芯片分析。
选择性剪切与许多人类疾病有关,基因以及基因异构体水平的表达分析是揭示选择性剪切变化情况的常用研究方法,Affymetrix外显子芯片为测量基因以及基因异构体表达水平提供了一种重要方法。由于外显子芯片基于杂交技术进行设计,实验数据中存在大量噪声,并且选择性剪切导致一个探针往往对应多个剪切异构体,这些给剪切异构体表达水平的计算带来了挑战。为此在先前提出的基于伽玛分布的概率模型(Gamma model for exon array data,GME)基础上,提出了iGME模型,进行基因以及异构体表达水平的计算。该模型利用已知的基因剪切异构体与探针的对应关系,模拟了条件独立的探针特性。通过采用真实实验数据进行验证,并与传统方法进行比较,结果表明iGME模型获得了较高的计算精度和更快的计算速度。