基于蛋白质语言模型的细菌毒力因子预测新框架pLM4VF的开发与验证

《BMC Biology》:Advancing virulence factor prediction using protein language models

【字体: 时间:2025年10月18日 来源:BMC Biology 4.5

编辑推荐:

  本研究针对细菌毒力因子(VF)预测中存在的特征提取落后、框架简单及未区分革兰氏阳性(G+)/阴性(G-)细菌等问题,开发了整合ESM蛋白质语言模型和堆叠策略的pLM4VF预测框架。实验表明该模型在独立测试集上准确率提升0.063-0.320,并通过细胞毒性/急性毒性实验验证其可靠性。研究成果为揭示细菌致病机制和抗菌治疗开发提供新工具。

  
细菌感染已成为全球第二大死亡原因,每年导致约1370万人死亡,尤其对发展中国家造成严重公共卫生负担。在这一严峻背景下,毒力因子(Virulence Factors, VFs)作为细菌致病性的关键要素,通过促进宿主侵袭、免疫逃逸和组织损伤等过程加剧感染程度。然而传统实验方法鉴定VFs存在耗时费力、通量低的局限,而现有机器学习预测方法又面临特征提取落后、预测框架简单以及忽视G+/G-细菌差异三大挑战。
为解决这些难题,海南大学刘洪团队在《BMC Biology》发表研究,开发出创新性预测框架pLM4VF。该研究首次将ESM蛋白质语言模型(Protein Language Models, pLMs)引入VF预测领域,通过分层建模策略分别构建G+和G-细菌的专用模型。团队采用系统性比对方法,在11种传统描述符和8种ESM pLMs中筛选最优特征表示,发现esm2_t33_650M_UR50D和esm1b_t33_650M_UR50S分别最适合G+和G-细菌VF特征提取。通过六种机器学习算法训练基础模型,并结合三种元学习器构建126种堆叠集成模型,最终优选出的组合在独立测试中展现出显著优势。
关键技术方法包括:从Victors数据库获取1134个G+菌和3286个G-菌VF数据,采用CD-HIT算法(阈值0.5)去冗余;分别使用ESM pLMs和传统描述符进行特征提取;通过随机欠采样平衡数据集,采用十折交叉验证和独立测试评估模型;运用细胞毒性实验和小鼠急性毒性实验进行生物验证。
Superior predictive performance of ESM pLMs over traditional descriptors in predicting VFs
研究团队通过全面对比发现,ESM pLMs在捕捉氨基酸间局部和长程依赖关系方面显著优于传统描述符。ESM-2-650M在G+细菌预测中灵敏度达0.781,而ESM-1b在G-细菌预测中准确率达0.822。相关性分析显示ESM pLMs能有效捕获蛋白质序列两端及远距离氨基酸间的关联性。
Performance validation of ESM pLMs on the independent dataset
在独立测试集上,ESM pLMs继续保持优势,较传统描述符组合"EleTra"在G+细菌预测中准确率提升0.036。研究还验证了随机欠采样策略和CD-HIT 0.5阈值在平衡模型性能方面的最佳效果。
pLM4VF, constructed based on ESM pLMs, outperformed state-of-the-art methods
通过堆叠集成策略构建的pLM4VF框架,其G+细菌模型(KNN+SVM+RF基础模型+LR元模型)在独立测试中ACC达0.803,G-细菌模型(六基础模型+SVM元模型)ACC达0.833。交叉预测实验证实了区分菌株类型建模的必要性——G+模型预测G-数据时ACC降至0.463。
Biological validation experiments substantiated the predictive capacity of pLM4VF
应用pLM4VF对Aeromonas veronii C4全基因组分析发现,预测的VFs主要富集于转运、磷酸传递信号转导系统等生物过程。通过基因敲除和感染实验验证了AcrA、AcrB、SmpB和BvgS四个新型VFs的功能,其中ΔacrB菌株在小鼠模型中表现出显著减弱的组织定植能力和病理损伤。
研究结论表明,pLM4VF通过创新性地结合ESM pLMs与分层建模策略,成功解决了VF预测领域的多个关键难题。该框架不仅能准确识别新型毒力因子,其在线工具(https://compbiolab.hainanu.edu.cn)更为研究人员提供了全基因组尺度分析平台。这项研究为理解细菌致病机制、开发新型抗菌策略提供了重要技术支撑,尤其在对不同菌株类型特异性识别方面实现了方法论突破。随着更多实验验证VFs的积累,pLM4VF有望通过持续训练进一步优化性能,为全球抗感染研究贡献中国智慧。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号