细菌感染已成为全球第二大死亡原因,每年导致约1370万人死亡,尤其对发展中国家造成严重公共卫生负担。在这一严峻背景下,毒力因子(Virulence Factors, VFs)作为细菌致病性的关键要素,通过促进宿主侵袭、免疫逃逸和组织损伤等过程加剧感染程度。然而传统实验方法鉴定VFs存在耗时费力、通量低的局限,而现有机器学习预测方法又面临特征提取落后、预测框架简单以及忽视G+/G-细菌差异三大挑战。为解决这些难题,海南大学刘洪团队在《BMC Biology》发表研究,开发出创新性预测框架pLM4VF。该研究首次将ESM蛋白质语言模型(Protein Language Models, pLMs)引入VF预测领域,通过分层建模策略分别构建G+和G-细菌的专用模型。团队采用系统性比对方法,在11种传统描述符和8种ESM pLMs中筛选最优特征表示,发现esm2_t33_650M_UR50D和esm1b_t33_650M_UR50S分别最适合G+和G-细菌VF特征提取。通过六种机器学习算法训练基础模型,并结合三种元学习器构建126种堆叠集成模型,最终优选出的组合在独立测试中展现出显著优势。关键技术方法包括:从Victors数据库获取1134个G+菌和3286个G-菌VF数据,采用CD-HIT算法(阈值0.5)去冗余;分别使用ESM pLMs和传统描述符进行特征提取;通过随机欠采样平衡数据集,采用十折交叉验证和独立测试评估模型;运用细胞毒性实验和小鼠急性毒性实验进行生物验证。 Superior predictive performance of ESM pLMs over traditional descriptors in predicting VFs 研究团队通过全面对比发现,ESM pLMs在捕捉氨基酸间局部和长程依赖关系方面显著优于传统描述符。ESM-2-650M在G+细菌预测中灵敏度达0.781,而ESM-1b在G-细菌预测中准确率达0.822。相关性分析显示ESM pLMs能有效捕获蛋白质序列两端及远距离氨基酸间的关联性。 Performance validation of ESM pLMs on the independent dataset 在独立测试集上,ESM pLMs继续保持优势,较传统描述符组合"EleTra"在G+细菌预测中准确率提升0.036。研究还验证了随机欠采样策略和CD-HIT 0.5阈值在平衡模型性能方面的最佳效果。 pLM4VF, constructed based on ESM pLMs, outperformed state-of-the-art methods 通过堆叠集成策略构建的pLM4VF框架,其G+细菌模型(KNN+SVM+RF基础模型+LR元模型)在独立测试中ACC达0.803,G-细菌模型(六基础模型+SVM元模型)ACC达0.833。交叉预测实验证实了区分菌株类型建模的必要性——G+模型预测G-数据时ACC降至0.463。 Biological validation experiments substantiated the predictive capacity of pLM4VF 应用pLM4VF对Aeromonas veronii C4全基因组分析发现,预测的VFs主要富集于转运、磷酸传递信号转导系统等生物过程。通过基因敲除和感染实验验证了AcrA、AcrB、SmpB和BvgS四个新型VFs的功能,其中ΔacrB菌株在小鼠模型中表现出显著减弱的组织定植能力和病理损伤。研究结论表明,pLM4VF通过创新性地结合ESM pLMs与分层建模策略,成功解决了VF预测领域的多个关键难题。该框架不仅能准确识别新型毒力因子,其在线工具(https://compbiolab.hainanu.edu.cn)更为研究人员提供了全基因组尺度分析平台。这项研究为理解细菌致病机制、开发新型抗菌策略提供了重要技术支撑,尤其在对不同菌株类型特异性识别方面实现了方法论突破。随着更多实验验证VFs的积累,pLM4VF有望通过持续训练进一步优化性能,为全球抗感染研究贡献中国智慧。