编辑推荐:
蛋白质三维结构对其功能至关重要,结构比较技术随 PDB 数据库扩展而发展。研究人员针对基于三角空间关系(TSR)的蛋白质与氨基酸三维结构比较方法,开发并行化策略,在高性能集群实现。结果表明该策略提升效率,为同类研究提供参考。
蛋白质在维持生命活动中起着关键作用,其特定生物学功能的发挥依赖于特定三维(3D)结构的形成。随着蛋白质数据库(PDB)存储库的不断扩展,结构比较技术从中受益。开发用于蛋白质和氨基酸 3D 结构比较的计算工具,对理解蛋白质功能具有重要意义,基于三角空间关系(TSR)的方法正是为此目的而开发。
研究人员开发了一种并行化策略,并在高性能集群上利用分布式和共享内存编程模型,结合多核 CPU 和众核 GPU 加速器实现了该策略。在基于 TSR 的方法中,蛋白质和氨基酸的 3D 结构由整数向量表示。本研究针对基于 TSR 的方法设计了用于大规模蛋白质和氨基酸 3D 结构比较的并行化策略,该策略也可适用于其他使用向量型数据结构的应用。
由于基于 TSR 的方法中蛋白质和氨基酸结构的向量表示特性,比较算法非常适合在大规模超级计算机上进行并行化。针对代表性数据集的性能研究证明了该并行化策略的有效性,它使大规模蛋白质或氨基酸 3D 结构数据集的比较能够在合理时间内完成。
案例研究表明,利用该并行化代码,在基于 TSR 的算法中应用镜像或特征选择可改善蛋白质和氨基酸 3D 结构的分类。TSR 键具有执行基于结构的 BLAST 搜索的优势,该并行化代码可为未来类似研究提供参考。
关键词:3D 结构比较;TSR 方法;氨基酸结构;混合编程;MPI;OpenMP;OpenACC;蛋白质;BLAST