研究加速K-medoids聚类算法,首先以PAM(partitioning around medoids)、TPAM(triangular inequality elimination criteria PAM)算法为基础给出两个加速引理,并基于中心点之间距离不等式提出两个新加速定理.同时,以O(n+K^2)额外内存空间开销辅助引理、定理的结合而提出加速SPAM(speed up PAM)聚类算法,使得K-medoids聚类算法复杂度由O(K(n-K)~2)降低至O((n-K)~2).在实际及人工模拟数据集上的实验结果表明:相对于PAM,TPAM,FKMEDOIDS(fast K-medoids)等参考算法均有改进,运行时间比PAM至少提升0.828倍.
药物靶标作用关系预测是一种重要的辅助药物研发手段,而生物实验验证药物靶标作用关系耗钱耗时,因此,在数据库中查询验证预测的药物靶标作用关系是对预测方法的重要评价.基于KEGG,DrugBank,ChEMBL这3个数据库,利用爬虫获取信息的方式设计开发了药物靶标作用关系查询验证方法DTcheck(drug-target check),实现了对于提供KEGG DRUG ID及KEGG GENES ID的药物靶标对的高效查询验证功能,并利用DTcheck分别为Enzyme,IC(ion channel),GPCR(G-protein-coupled receptor),NR(nuclear receptor)四个标准数据集扩充新增药物靶标作用关系907,766,458,40对.此外,结合DTcheck查询验证,以BLM(bipartite local models)方法为例分析了预测结果的评价问题,结果表明,采用AUC(area under curve)值评价药物靶标作用关系预测方法没有Top N 评价合理,且AUC值低的BLMd方法在预测新的药物靶标作用关系时优于AUC值高的BLMmax方法.