预测研究不足的病毒(如阿雷纳病毒)与人类之间的蛋白质-蛋白质相互作用的挑战
《Computational and Structural Biotechnology Journal》:Challenges in predicting protein-protein interactions of understudied viruses: Arenavirus-Human interactions
【字体:
大
中
小
】
时间:2025年11月23日
来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
蛋白质-蛋白质相互作用(PPI)预测对疾病治疗至关重要,但拉沙等arenaviruses与人PPI数据稀缺。本研究采用迁移学习,利用HIV、SARS-CoV-2等病毒宿主PPI预训练模型,微调预测arenaviruses与人相互作用。通过四类负采样策略(CANON、HYBRID-B、HYBRID-R、RANDP)评估模型,发现高准确率(93-99%)和AUPRC(0.8-0.9)可能受数据泄露和过拟合影响。提出病毒蛋白特异性评估框架,按蛋白类别(L/NP majority,GP/Z minority)计算平衡准确率,显示少数类(GP/Z)预测性能显著下降(L类准确率72.2%,Z类46.7%)。独立盲测显示数据偏差导致模型过拟合(标准k折验证准确率96%,独立测试仅48.8%)。研究强调需采用独立测试、平衡数据集及病毒蛋白特异性评估,避免传统指标误导。
病毒与宿主之间的蛋白质-蛋白质相互作用(PPIs)是理解病毒感染机制以及寻找潜在治疗靶点的关键。然而,对于一些研究较少的病毒,如亚病毒(Arenavirus),建立可靠的预测模型存在较大挑战。这是因为这些病毒相关的PPI数据有限,且缺乏足够的正负样本对模型进行训练和验证。本文通过研究亚病毒与人类之间的PPI,揭示了模型泛化能力的不足,并提出了针对病毒蛋白的特定评估框架,以更全面地分析模型的性能,尤其是在少数类病毒蛋白上的表现。
亚病毒是一类具有双链RNA基因组的病毒,其生命周期依赖于与宿主细胞的多种相互作用。这些相互作用包括病毒进入细胞、复制、逃避免疫系统以及病毒颗粒的组装和释放。尽管这些病毒在某些地区具有较高的公共卫生风险,如拉沙病毒(Lassa virus)和Junín病毒,但目前对它们与宿主的PPI研究仍处于初级阶段。这种研究的不足导致了PPI预测模型在这些病毒上的泛化能力受限,特别是在面对数据稀缺和类别不平衡时。
传统的PPI预测方法通常依赖于经典机器学习模型,如支持向量机(SVM)和随机森林(RF)。这些方法在一些病毒-宿主PPI预测中表现出色,但面对研究较少的病毒,如亚病毒,它们的性能往往受限于数据量和数据质量。近年来,深度学习(DL)技术在PPI预测中展现出更强的特征提取能力和模式识别能力。例如,使用卷积神经网络(CNN)和注意机制(transformers)的模型在预测病毒-宿主PPI方面取得了显著进展。然而,这些模型通常需要大量数据进行训练,并且在处理类别不平衡的数据时可能面临过拟合和数据偏差的问题。
为了克服这些挑战,研究者开始采用迁移学习(Transfer Learning)的方法,利用在其他病毒-宿主PPI或人类-人类PPI上训练的模型来预测亚病毒-人类PPI。迁移学习的核心思想是利用已有的知识,以提高在新数据集上的泛化能力。在本文中,研究者利用了TransPPI模型,该模型在多种病毒-宿主PPI数据集上进行训练,并通过微调(Fine Tuning)和冻结层(Frozen Layers)两种方式来适应亚病毒-人类PPI预测任务。
在数据收集方面,研究者从多个公共数据库中获取了实验验证的正样本数据,包括HPIDB、DIP、BioGrid、STRING、IntAct、ViralHostNet、PHISTO和PDB。由于缺乏实验验证的负样本,研究者采用了多种负样本采样策略,包括基于差异性的负样本采样(CANON)、广义混合集群采样(HYBRID-B)、精炼混合集群采样(HYBRID-R)以及随机配对采样(RANDP)。这些策略旨在确保模型能够区分正负样本,并在不同测试条件下评估其性能。
在模型训练过程中,研究者使用了位置特异性得分矩阵(PSSMs)作为特征表示,这些矩阵能够捕捉蛋白质序列的保守性和进化信息。通过对病毒和宿主蛋白序列进行标准化和调整,研究者构建了用于模型输入的固定维度的特征向量。模型的训练采用了5折交叉验证(CV)和独立盲测(Independent Blind Testing)两种方式,以评估其在不同数据分布下的泛化能力。
然而,模型的性能评估结果存在误导性。尽管在某些情况下,模型的准确率(ACC)和AUPRC(Area Under the Precision-Recall Curve)可以达到93-99%的范围,但这并不一定意味着模型具有真正的泛化能力。研究者通过独立盲测和平衡数据集测试发现,模型的准确率显著下降,甚至低于50%。这表明,传统的评估方法可能未能充分考虑到数据不平衡和模型过拟合的问题。
为了解决这一问题,研究者提出了一种基于病毒蛋白的特定评估框架,将病毒蛋白分为多数类和少数类,以更细致地分析模型在不同类别上的表现。这种框架通过计算多数类和少数类的平衡准确率(Balanced Accuracy)和马修斯相关系数(MCC),为模型的性能评估提供了更全面的视角。此外,研究者还通过混淆矩阵(Confusion Matrix)分析了模型在各个病毒蛋白类别上的表现,发现模型在多数类(如L和NP)上表现较好,但在少数类(如GP和Z)上存在显著的性能下降。
在实验结果中,研究者发现,基于差异性负样本采样的CANON数据集在模型性能上表现较弱,而基于随机配对的RANDP数据集则显示出更好的泛化能力。这表明,负样本采样策略对模型的性能具有重要影响。同时,研究者也指出,尽管使用迁移学习可以提高模型的泛化能力,但仍然存在数据偏差和模型过拟合的问题,特别是在数据量较小的情况下。
此外,研究者还探讨了PPI预测模型在实际应用中的局限性。例如,当模型在不平衡数据集上训练时,其预测结果可能偏向于多数类,从而忽略了少数类的潜在相互作用。这种偏差可能导致研究者在进行实验设计时做出错误的判断,浪费宝贵的科研资源。因此,研究者强调了在PPI预测中采用更严格的评估框架和数据采样策略的重要性。
总的来说,本文通过分析亚病毒-人类PPI预测中的数据不平衡问题,揭示了现有模型在泛化能力上的不足。研究者提出了一种基于病毒蛋白的特定评估方法,以更全面地衡量模型的性能,并强调了在实际应用中采用独立盲测和平衡数据集的重要性。这些方法有助于提高模型的可靠性,并减少因数据偏差而导致的误判风险。未来的研究应进一步探索更有效的负样本采样策略和损失函数,以应对PPI预测中的类别不平衡问题,并推动对新型病毒的深入研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号