利用梯度提升算法和人工神经网络(ANN)模型识别甲型流感病毒(H1N1)基因组中的蛋白质-蛋白质相互作用(PPI)位点

《ACS Omega》:Identification of Protein–Protein Interaction (PPI) Sites on the Influenza A (H1N1) Viral Genome Using Gradient Boosting and Artificial Neural Network (ANN) Models

【字体: 时间:2025年11月10日 来源:ACS Omega 4.3

编辑推荐:

  预测流感A病毒蛋白-蛋白相互作用位点的新型机器学习方法及验证

  病毒蛋白与宿主蛋白之间的相互作用(PPI)是理解病毒入侵、复制及传播机制的关键环节。在病毒学研究中,这类相互作用对于开发抗病毒药物和疫苗具有重要意义。然而,传统的实验方法在确定这些相互作用位点时,往往耗时费力且成本高昂。因此,研究人员开始探索基于计算的方法,以更高效地识别这些关键位点。本研究聚焦于流感A病毒(IAV)的基因组,这是高度可变的病毒,对人类健康构成持续威胁。目前,尚未有专门针对IAV基因组的计算方法,用于预测PPI位点。为此,我们首次提出了一种基于人工智能模型的PPI位点预测方法,用于IAV蛋白序列,并在多个模型中进行了验证和优化。

### 背景与研究意义

病毒与宿主之间的蛋白-蛋白相互作用是病毒生命周期的重要组成部分,不仅影响病毒的复制和传播,还与宿主免疫系统的激活密切相关。流感A病毒,因其负链RNA基因组和高突变率,是导致全球多次大流行的病原体之一。尽管已有多种抗病毒药物和疫苗,但IAV仍然能够不断演化,导致新毒株的出现。因此,了解IAV蛋白与宿主蛋白之间的相互作用,对于开发更有效的抗病毒策略至关重要。

目前,大多数计算模型依赖于实验数据,如蛋白质结构信息或基于突变的实验数据,这些数据通常来自结构生物学数据库(如PDBsum、ASEdb、BID、SKEMPI等)。然而,对于IAV蛋白,实验数据较为有限,尤其是关于其与宿主蛋白相互作用的具体位点。因此,本研究提出了一种基于序列信息的PPI位点预测方法,不仅克服了实验数据不足的问题,还为新出现的病毒株提供了潜在的预测工具。

### 方法与数据集构建

为了实现这一目标,我们构建了两个训练数据集:Train-1和Train-2。Train-1来源于多种蛋白-蛋白相互作用数据库,包含了17995个氨基酸位点,这些数据基于已知的蛋白质结构信息。Train-2则来源于IAV病毒蛋白的共识序列,共包含3322个氨基酸位点,其相互作用信息来自实验性突变研究、生化实验等。此外,我们还构建了两个测试数据集:Test-1和Test-2。Test-1包括与宿主因子相互作用的六种IAV蛋白(M1、NS1、NEP、NP、PB1、PB2),而Test-2则用于验证模型的通用性,包括SARS-CoV-2的刺突蛋白序列。

为了提高模型的性能,我们对Train-2数据集进行了优化处理,包括对少数类进行过采样和正未标记(PU)学习。PU学习是一种处理未标记数据的半监督方法,特别适用于实验数据不足的情况。我们还采用了Prot-BERT-ANN模型,该模型结合了Prot-BERT(一种专门针对蛋白质序列的双向编码器表示模型)和人工神经网络(ANN),能够从蛋白质序列中提取高维特征,并利用这些特征进行交互位点的预测。在模型训练过程中,我们对不同类别进行了权重调整,并通过阈值调优来进一步优化预测效果。

### 模型表现与分析

在内部验证中,我们发现梯度提升模型在处理Train-1和Train-2数据集时表现良好。特别是当结合了少数类过采样和PU学习后,该模型在Train-2数据集上的表现显著优于其他模型。对于Train-1数据集,虽然梯度提升模型的总体准确率较高,但其对相互作用位点的召回率和F1分数较低,这可能是由于数据集中的类别不平衡问题。通过引入SMOTE(合成少数类过采样技术)和RandomSampler,我们能够有效缓解这一问题,从而提高模型的预测性能。

在Test-1数据集上,梯度提升模型表现出更高的召回率,其中对于M1蛋白,其召回率达到0.55,而Prot-BERT-ANN模型的召回率仅为0.51。这表明,尽管Prot-BERT-ANN模型在某些情况下具有较高的预测精度,但在处理类别不平衡的数据时,其性能不如梯度提升模型。在Test-2数据集上,梯度提升模型的准确率达到了55%,而Prot-BERT-ANN模型的准确率仅为7%。这一结果进一步验证了梯度提升模型在处理完全独立的测试数据时的泛化能力。

### 与D-SCRIPT模型的对比

为了进一步评估我们的模型,我们将其与D-SCRIPT模型进行了比较。D-SCRIPT是一种基于神经语言模型的PPI位点预测方法,其通过蛋白质序列的接触图信息来预测相互作用位点。在Test-1数据集上,D-SCRIPT模型的召回率远低于我们的梯度提升模型,特别是在M1、NS1、NEP、NP、PB1、PB2等蛋白上。这表明,我们的模型在处理IAV蛋白的PPI位点预测方面具有更高的准确性。然而,D-SCRIPT在PB1蛋白上的表现稍优于梯度提升模型,这可能与数据集的来源和标注方式有关。

### 盲预测与实际应用

我们还对三个IAV蛋白(HA、NA、M2)进行了盲预测,这些蛋白的PPI位点尚未被实验确认。盲预测的结果显示,梯度提升模型在多个序列中能够准确识别相互作用位点,而Prot-BERT-ANN模型的预测结果则较为有限。这一结果表明,梯度提升模型在处理未知数据时具有更强的泛化能力。通过盲预测,我们能够观察到序列变异对PPI位点的影响。例如,在M1蛋白的盲预测中,我们发现某些非保守位点的突变可能影响相互作用位点的分布,这为理解病毒突变对药物靶点的影响提供了重要线索。

### 潜在应用与未来方向

本研究提出的方法不仅适用于IAV蛋白,还具有推广至其他病毒(如SARS-CoV-2)的潜力。例如,我们发现,梯度提升模型在SARS-CoV-2刺突蛋白的RBD区域中表现出较高的准确率,这表明该模型可以用于预测不同病毒的PPI位点。此外,该方法对于药物设计和药物重定位(drug repurposing)具有重要意义。通过识别病毒蛋白与宿主蛋白之间的相互作用位点,研究人员可以更有效地筛选出潜在的药物靶点,并设计针对特定病毒株的药物。

在实际应用中,这一方法可以用于预测新出现的病毒株的PPI位点,从而为快速开发抗病毒药物提供理论支持。同时,该方法也可以用于优化现有药物的结合效果,提高药物对特定病毒株的靶向性。此外,由于病毒蛋白的突变可能导致PPI位点的变化,因此,该方法在理解病毒进化过程中对药物靶点的影响方面也具有重要价值。

### 总结

本研究首次提出了针对IAV蛋白序列的PPI位点预测方法,并在多个模型中进行了验证和优化。我们发现,梯度提升模型在处理类别不平衡和未标记数据时表现出更强的性能,特别是在Test-1和Test-2数据集上的表现优于Prot-BERT-ANN模型。此外,通过与D-SCRIPT模型的对比,我们进一步验证了梯度提升模型在PPI位点预测中的优势。盲预测的结果表明,该方法能够有效识别新病毒株的PPI位点,为抗病毒药物的开发提供了新的思路。

总的来说,这一研究不仅拓展了计算生物学在病毒学领域的应用,还为理解病毒与宿主之间的相互作用提供了新的工具。未来,我们计划进一步优化模型,提高其在不同病毒株中的预测能力,并探索其在药物设计和疫苗开发中的实际应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号