IApred:一种基于支持向量机的开源工具精准预测多种病原体蛋白抗原性

【字体: 时间:2025年10月10日 来源:Immunobiology 2.3

编辑推荐:

  本研究针对现有蛋白抗原性预测工具在可及性、计算效率和病原体多样性方面的局限,开发了开源工具IApred。该工具采用支持向量机(SVM)模型,整合理化性质、E-描述符、氨基酸二聚体和小线性基序(SLiMs)等特征,在包含918种高抗原性蛋白的综合数据集上训练而成。外部验证显示,IApred在ROC AUC(0.761)、灵敏度(0.702)和特异性(0.706)方面均优于VaxiJen和ANTIGENpro等现有工具,同时保持高效计算性能(约1000条序列/分钟),为疫苗开发和生物治疗提供了重要技术支撑。

  
准确预测蛋白质抗原性对疫苗开发、诊断测试设计和治疗性蛋白质工程至关重要。然而,现有工具在可及性、计算效率和病原体多样性方面存在明显局限。VaxiJen和ANTIGENpro等主流预测工具不仅不开源,缺乏API接口,还主要依赖细菌抗原训练数据集,这限制了它们在非细菌病原体中的泛化能力。APRANK虽然开源,但计算资源需求高且依赖第三方软件,实用性受限。这些工具大多只能进行二分类预测,无法反映蛋白质抗原性的连续本质,而实际上任何蛋白质都可能被免疫系统识别,只是效率不同。
为了突破这些限制,Sebastian Miles等人开发了IApred——一种开源、宿主和病原体无关的固有抗原性预测工具。这项发表在《Immunobiology》的研究展示了一个基于支持向量机(SVM)的创新预测模型,能够准确预测来自多种病原体的蛋白质引发体液免疫反应的概率。
研究人员主要采用了机器学习建模与验证的技术路线。首先构建了包含918个高抗原性蛋白质的综合训练数据集,涵盖革兰氏阳性菌、革兰氏阴性菌、病毒、真菌、原生动物和蠕虫等多样化病原体。通过血清蛋白质组分析(SERPA)和文献挖掘获取抗原数据,采用90%序列相似度阈值去冗余。低抗原性蛋白质数据集则通过从相同生物体的蛋白质组中随机选择大小相似的蛋白质构建。特征工程方面提取了838个特征,包括理化性质、E-描述符、氨基酸二聚体频率和小线性基序(SLiMs)等。使用Scikit-learn训练SVM模型,通过特征选择和超参数优化确定最佳参数。最终使用包含218个蛋白质的外部数据集(来自Protegen数据库)进行性能评估,并与VaxiJen 2.0/3.0和ANTIGENpro等现有工具进行对比。

高抗原性和低抗原性数据集

研究人员精心构建了训练数据集,高抗原性集合包含918个蛋白质,主要来自SERPA研究报告和疫苗候选物。SERPA是一种实验技术,通过二维电泳凝胶分离病原体蛋白质,然后用感染或接种哺乳动物宿主的血清进行Western blot分析,最后通过质谱鉴定显色斑点对应的蛋白质。为了减少过拟合,研究人员去除了同一物种内和物种间相似度超过90%的序列,保留最长序列。此外还整合了用于训练其他抗原性预测工具的数据集,包括VaxiJen 3.0使用的315个细菌抗原,以及从VaxiJen ViralDB中提取的95个病毒蛋白质组成的非冗余数据集。

模型训练

研究团队评估了838个不同特征,包括通过Biopython的ProtParam库计算的物理化学特性(分子量、等电点、二级结构比例等)、E-描述符衍生的特征、氨基酸二聚体频率和353个已知具有生物学重要性的大小线性氨基酸模式(SLiMs)。通过特征选择确定了529个最佳特征,使用径向基函数(RBF)作为核函数,并通过网格搜索优化了正则化参数C和核系数gamma,最终确定C=1,gamma=0.001。

模型评估

通过10折交叉验证、留一类交叉验证(LOCO-CV)和留一病原体交叉验证(LOPO-CV)等多种策略评估模型性能。学习曲线显示训练集大小增加仅带来轻微性能提升,ROC AUC得分(0.8017)和精确召回曲线(AP=0.79)表明模型具有相当高的准确性。特征重要性分析显示,大和小残基的频率、脂肪族指数、序列重复性、等电点和KN二聚体是影响分类的主要正特征,而某些SLiMs模式是主要负特征。

内部评估

对SERPA集合中每个蛋白质以及相应生物体的整个蛋白质组预测固有抗原性,并比较抗原性分布。结果显示在大多数情况下,人工筛选的抗原具有显著更高的IAscore(曼-惠特尼-威尔科克森检验p<0.05),而低抗原性蛋白质的分布与蛋白质组相似,这部分证实了模型的准确性。

外部评估

使用Protegen数据库的简化版本进行外部评估,与ANTIGENpro、VaxiJen 2.0和VaxiJen 3.0等现有工具进行比较。IApred表现出最平衡的性能,灵敏度(0.702)和特异性(0.706)接近,准确率最高(0.704),马修斯相关系数(MCC=0.408)和尤登指数(J=0.408)最优,Brier得分(0.202)最低,预期校准误差(ECE=0.074)最小。这些结果表明IApred是通用抗原性预测中最可靠的工具。
研究表明,IApred在固有蛋白质抗原性预测方面建立了强大而多功能的解决方案,在不同病原体类别中实现了平衡的灵敏度(0.702)和特异性(0.706),优于广泛使用的工具。其开源、宿主和病原体无关的设计,加上能够使用标准谷歌colab配置每分钟处理约1000个序列的能力,使其能够无缝集成到生物信息学管道和与疫苗开发、诊断设计和治疗性蛋白质工程相关的大规模分析中。
通过解决现有预测工具的关键限制——如有限的可及性、缺乏透明度和对非细菌抗原的适用性受限——IApred为科学界提供了一个透明和适应性强的框架。包含多样化病原体类别的综合训练数据集确保了在各种生物体中的可靠性能,使IApred特别适用于研究新兴病原体和非细菌抗原。训练代码和数据集的可用性进一步使用户能够为专业应用重新训练或扩展模型。
虽然当前结果证明了强大而可靠的性能,但未来仍有显著改进潜力。扩展训练数据集,特别是对于代表性不足的非细菌病原体,可以进一步提高预测准确性。整合免疫学和结构特征,如T细胞和B细胞表位预测,可以进一步增强预测准确性和范围。一个高级版本的IApred目前正在开发中,旨在解决专业用例的这些方面,而当前版本对于一般应用仍然非常有效。
总之,IApred为现有抗原性预测工具提供了平衡、准确和可访问的替代方案。其开源基础和全面设计不仅解决了当前的挑战,而且为抗原性预测和免疫信息学研究的未来进展奠定了基础。这项研究的真正价值在于它提供了一种既科学严谨又实际可用的工具,能够帮助研究人员更有效地识别抗原候选物,加速疫苗和诊断试剂的开发进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号