基于蛋白质语言模型的细菌毒力因子预测新框架pLM4VF的开发与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Biology》：Advancing virulence factor prediction using protein language models

【字体：大中小】 时间：2025年10月18日 来源：BMC Biology 4.5

编辑推荐：

　　本研究针对细菌毒力因子(VF)预测中存在的特征提取落后、框架简单及未区分革兰氏阳性(G+)/阴性(G-)细菌等问题，开发了整合ESM蛋白质语言模型和堆叠策略的pLM4VF预测框架。实验表明该模型在独立测试集上准确率提升0.063-0.320，并通过细胞毒性/急性毒性实验验证其可靠性。研究成果为揭示细菌致病机制和抗菌治疗开发提供新工具。

细菌感染已成为全球第二大死亡原因，每年导致约1370万人死亡，尤其对发展中国家造成严重公共卫生负担。在这一严峻背景下，毒力因子(Virulence Factors, VFs)作为细菌致病性的关键要素，通过促进宿主侵袭、免疫逃逸和组织损伤等过程加剧感染程度。然而传统实验方法鉴定VFs存在耗时费力、通量低的局限，而现有机器学习预测方法又面临特征提取落后、预测框架简单以及忽视G⁺/G^-细菌差异三大挑战。

为解决这些难题，海南大学刘洪团队在《BMC Biology》发表研究，开发出创新性预测框架pLM4VF。该研究首次将ESM蛋白质语言模型(Protein Language Models, pLMs)引入VF预测领域，通过分层建模策略分别构建G⁺和G^-细菌的专用模型。团队采用系统性比对方法，在11种传统描述符和8种ESM pLMs中筛选最优特征表示，发现esm2_t33_650M_UR50D和esm1b_t33_650M_UR50S分别最适合G⁺和G^-细菌VF特征提取。通过六种机器学习算法训练基础模型，并结合三种元学习器构建126种堆叠集成模型，最终优选出的组合在独立测试中展现出显著优势。

关键技术方法包括：从Victors数据库获取1134个G⁺菌和3286个G^-菌VF数据，采用CD-HIT算法(阈值0.5)去冗余；分别使用ESM pLMs和传统描述符进行特征提取；通过随机欠采样平衡数据集，采用十折交叉验证和独立测试评估模型；运用细胞毒性实验和小鼠急性毒性实验进行生物验证。

Superior predictive performance of ESM pLMs over traditional descriptors in predicting VFs

研究团队通过全面对比发现，ESM pLMs在捕捉氨基酸间局部和长程依赖关系方面显著优于传统描述符。ESM-2-650M在G⁺细菌预测中灵敏度达0.781，而ESM-1b在G^-细菌预测中准确率达0.822。相关性分析显示ESM pLMs能有效捕获蛋白质序列两端及远距离氨基酸间的关联性。

Performance validation of ESM pLMs on the independent dataset

在独立测试集上，ESM pLMs继续保持优势，较传统描述符组合"EleTra"在G⁺细菌预测中准确率提升0.036。研究还验证了随机欠采样策略和CD-HIT 0.5阈值在平衡模型性能方面的最佳效果。

pLM4VF, constructed based on ESM pLMs, outperformed state-of-the-art methods

通过堆叠集成策略构建的pLM4VF框架，其G⁺细菌模型(KNN+SVM+RF基础模型+LR元模型)在独立测试中ACC达0.803，G^-细菌模型(六基础模型+SVM元模型)ACC达0.833。交叉预测实验证实了区分菌株类型建模的必要性——G⁺模型预测G^-数据时ACC降至0.463。

Biological validation experiments substantiated the predictive capacity of pLM4VF

应用pLM4VF对Aeromonas veronii C4全基因组分析发现，预测的VFs主要富集于转运、磷酸传递信号转导系统等生物过程。通过基因敲除和感染实验验证了AcrA、AcrB、SmpB和BvgS四个新型VFs的功能，其中ΔacrB菌株在小鼠模型中表现出显著减弱的组织定植能力和病理损伤。

研究结论表明，pLM4VF通过创新性地结合ESM pLMs与分层建模策略，成功解决了VF预测领域的多个关键难题。该框架不仅能准确识别新型毒力因子，其在线工具(https://compbiolab.hainanu.edu.cn)更为研究人员提供了全基因组尺度分析平台。这项研究为理解细菌致病机制、开发新型抗菌策略提供了重要技术支撑，尤其在对不同菌株类型特异性识别方面实现了方法论突破。随着更多实验验证VFs的积累，pLM4VF有望通过持续训练进一步优化性能，为全球抗感染研究贡献中国智慧。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号