编辑推荐:
在蛋白质研究中,蛋白质 - 蛋白质相互作用(PPIs)意义重大,其结合亲和力的准确预测至关重要。研究人员提出 PPI-Graphomer 模块,整合多种模型特征,在多数据集上优于现有方法。这为蛋白质研究和药物设计提供了有力工具。
在生命的微观世界里,蛋白质就像一个个忙碌的小工匠,它们相互协作,执行着各种重要的生物功能。蛋白质 - 蛋白质相互作用(PPIs)是这些功能实现的关键环节,就好比工匠们之间的紧密配合。而蛋白质的结合亲和力,如同工匠之间配合的默契程度,它决定了蛋白质能否高效地协同工作。理解蛋白质结合亲和力,对于揭示生物机制、研发药物至关重要。比如在药物研发中,准确知晓蛋白质的结合亲和力,能帮助科研人员快速筛选出有潜力的药物分子,大大提高研发效率。
然而,目前在这个领域却面临着诸多挑战。传统的实验方法测定蛋白质亲和力,不仅耗时费力,还需要大量的材料,成本高昂。像分子动力学模拟这种计算方法,虽然能进行预测,但它对计算资源的需求极大,进行大规模筛选时效率很低。经验函数方法虽然评估速度快,可它受特定场景限制,无法根据数据的增加提升判别能力。现有的基于机器学习和深度学习的方法虽然有一定优势,但在捕捉蛋白质结合界面信息方面仍存在不足。比如,目前的深度学习方法难以充分关注到蛋白质结合界面上那些关键的热点残基(对蛋白质相互作用起关键作用的特定氨基酸残基),这就像在一群工匠中,没有准确找到那些掌握核心技能、对协作起关键作用的人一样。
为了解决这些难题,厦门大学的研究人员展开了深入研究。他们提出了 PPI-Graphomer 模块,致力于提升蛋白质 - 蛋白质亲和力的预测水平。经过一系列的实验和分析,研究取得了令人瞩目的成果。该研究成果发表在《BMC Bioinformatics》上,为蛋白质研究领域带来了新的突破。
研究人员在这项研究中运用了多种关键技术方法。首先,利用 ESM2 和 ESM-IF1 这两种预训练模型,分别从蛋白质序列和结构数据中提取特征。然后,基于蛋白质相互作用界面的信息,设计了三种编码方式,包括氨基酸对类型编码、相互作用力编码和界面掩码,以此构建 PPI-Graphomer 模块。最后,通过多层感知器(MLP)进行回归预测,得出蛋白质的结合亲和力。研究使用的数据集主要来源于 PDBbind 数据库,为保证实验准确性和可比性,对数据进行了去重、筛选等处理。
下面来看看具体的研究结果:
- 5 折评估:研究人员对包含 2085 个样本的数据集进行 5 折交叉验证。他们把数据集平均分成五份,每次用其中一份作为验证集,其余四份用于训练,这样循环五次。最终得到的结果是,皮尔逊相关系数(PCC)达到 0.581,平均绝对误差(MAE)为 1.63。这表明模型在内部验证中具有一定的准确性和可靠性。
- 与其他方法在基准集上的比较:研究人员将自己的模型与其他方法在两个测试集上进行对比。在第一个测试集(75 个样本)上,模型的 PCC 达到 0.641,MAE 为 1.64,仅次于 PRODIGY 方法;在第二个测试集(87 个样本)上,PCC 为 0.625,MAE 为 1.51,表现优异。在结合两个测试集的综合数据集上,模型的 PCC 为 0.633,MAE 为 1.57,排名第一。此外,在与传统经验函数方法对比时,在二元复合物子集上,模型的 PCC 分别达到 0.708 和 0.633,远超 Rosetta 和 FoldX 等方法。这充分证明了 PPI-Graphomer 模型在预测蛋白质 - 蛋白质结合亲和力方面的优势。
- 消融实验:为了探究模型各个部分的作用,研究人员进行了消融实验。他们分别去除了 ESM2 提取的序列特征、ESM-IF1 提取的结构特征以及 PPI-Graphomer 模块。结果发现,去除 ESM2 特征后,模型性能显著下降,这说明 ESM2 提取的序列特征在模型中起着关键作用。而去除 ESM-IF1 特征后,模型性能下降相对较小,可能是因为 ESM2 已隐含了足够的结构信息。同时,PPI-Graphomer 模块的存在进一步提升了模型性能,表明它在捕捉界面残基相互作用信息方面效果显著。
综合来看,这项研究意义重大。在蛋白质研究领域,它为深入理解蛋白质 - 蛋白质相互作用机制提供了更精准的工具。从实际应用角度出发,在药物研发过程中,该模型能够更准确地预测蛋白质结合亲和力,帮助研究人员快速筛选出有潜力的药物靶点,大大提高药物研发的效率,降低研发成本。此外,该研究也为后续相关研究开辟了新的思路,激励更多科研人员在蛋白质研究领域不断探索创新,推动生命科学和健康医学领域的发展。