编辑推荐:
为解决蛋白质功能预测等难题,研究人员开展基于能量谱的蛋白分析研究,发现其可有效预测蛋白特性,意义重大。
在生命科学的微观世界里,蛋白质就像一个个精密的 “小机器”,它们的结构、功能以及相互之间的关系,一直是科学家们探索的重点。随着蛋白质数据库中数据的不断增长,如何深入了解这些蛋白质的功能特性,成为了摆在研究者面前的一道难题。传统的研究方法,要么依赖结构比对,要么依靠原子距离,不仅耗时费力,还存在诸多局限性。比如说,在预测蛋白质相似性、功能和进化关系时,效率不尽人意。而且,目前实验方法虽然准确性高,但成本高昂、耗时久,使得通过计算手段来研究蛋白质变得愈发迫切。
为了突破这些困境,来自芬兰赫尔辛基大学药理学系等机构的研究人员 Peyman Choopanian、Jaan-Olle Andressoo 和 Mehdi Mirzaie 开展了一项极具创新性的研究。他们另辟蹊径,提出了一种基于蛋白质能量谱(energy profile)的分析方法。该研究成果发表在《Nature Communications》上,为蛋白质研究领域带来了新的曙光。
在研究方法上,研究人员主要运用了以下几种关键技术:
一是开发基于知识的势能函数。他们从蛋白质数据库(PDB)中精心挑选了非冗余的蛋白质链,构建了基于距离依赖的势能函数,以此来计算氨基酸对之间的能量。
二是构建能量谱。通过特定的计算方式,生成了基于蛋白质结构的结构性能量谱(Structural Profile of Energy,SPE)和基于蛋白质序列的组成性能量谱(Compositional Profile of Energy,CPE),为后续分析奠定基础。
三是运用多种分析工具和算法。借助 R 语言以及相关的专业软件包,如 BIO3D、geometry、ggplot2 等,进行数据处理和分析;采用 k - 最近邻(k-Nearest Neighbors,k-NN)分类器结合留一法交叉验证(Leave-One-Out Cross-Validation,LOOCV)对蛋白质进行分类。
研究结果如下:
- 能量估计的相关性:研究人员发现,基于序列和基于结构数据估计的能量之间存在高度相关性。这意味着,在蛋白质结构未知的情况下,基于序列的能量估计也能提供可靠的近似,而且这种估计的准确性与蛋白质长度无关。
- 能量谱揭示结构信息:通过对不同层次的蛋白质结构进行分析,发现能量谱能够有效地捕捉蛋白质在类(class)、折叠(fold)、超家族(superfamily)和家族(family)等层次的结构信息。利用统一流形近似和投影(Uniform Manifold Approximation and Projection,UMAP)可视化技术,清晰地展示了同一折叠、超家族或家族的蛋白质结构域具有相似的能量模式。
- 蛋白质分类和进化分析:在蛋白质分类任务中,CPE 和 SPE 方法表现出色。在区分不同蛋白质家族时,CPE 方法不仅准确率高达 100%,而且计算时间极短,仅需 1 秒,远超其他传统方法。在对铁蛋白样超家族(ferritin-like superfamily)的进化分析中,基于能量谱构建的系统发育树能够准确区分不同的家族和亚家族,比 TM-Vec 等方法更能反映真实的进化关系。
- 冠状病毒蛋白分析:针对 SARS-CoV、MERS-CoV 和 SARS-CoV-2 的刺突糖蛋白(spike glycoprotein)进行研究时,能量谱方法能够成功地将这些蛋白聚类到相应的病毒组中,且在计算效率和聚类性能上优于其他方法。例如,CPE 方法在分析该蛋白时,仅需 0.9 秒,调整兰德指数(Adjusted Rand Index,ARI)达到 0.95,展现出强大的优势。
- 噬菌体蛋白聚类:分析噬菌体蛋白(bacteriocins)时,能量谱(CPE)可根据 BAGEL 注释对其进行清晰分类,有效区分不同类别的噬菌体蛋白,在蛋白质分类方面具有重要价值。
- 有效药物组合预测:研究人员引入基于蛋白质靶点能量谱相似性的分离度量(separation measure),发现其与基于蛋白质 - 蛋白质相互作用网络的分离度量显著相关,这表明能量谱有望用于预测药物组合,且计算速度更快。
- 大规模应用验证:在对包含 4405 个蛋白质模型的冠状病毒数据集进行分析时,CPE 和 SPE 方法在蛋白质家族检测中表现优异,准确率接近 100%,且 CPE 方法速度更快,进一步验证了该方法在大规模数据集上的有效性和高效性。
在研究结论与讨论部分,该研究提出的基于能量谱的蛋白质分析方法,为蛋白质研究提供了新的视角和有力工具。能量谱能够有效封装蛋白质的结构信息,准确预测蛋白质的结构和功能特性,在蛋白质分类、进化关系推断以及药物组合预测等方面展现出巨大的潜力。不过,研究也存在一定的局限性,比如依赖基于知识的势能可能限制结果的普遍性,仅从序列信息获取蛋白质能量学的全部信息可能存在复杂性。未来,可通过调整能量谱等方式,使其更适用于不同的研究场景,如蛋白质远程同源性检测、药物 - 靶点亲和力预测等。
总的来说,这项研究成果为蛋白质研究领域注入了新的活力,有望推动相关领域的进一步发展,为生命科学和健康医学研究提供重要的理论支持和技术手段。