编辑推荐:
为解决现有细菌毒力因子(VFs)预测依赖序列相似性、难以识别远源同源关系的问题,研究人员开展基于蛋白质语言模型与集成学习的 VFs 预测研究,开发 PLMVF 模型,结合序列与结构特征,实现 86.1% 准确率,为抗毒力疗法提供新工具。
细菌感染正成为现代医疗的重大挑战,随着抗生素耐药性的普遍增加,传统抗生素的过度使用和滥用加剧了全球抗菌耐药危机。在此背景下,针对毒力因子(Virulence Factors,VFs)的策略成为治疗细菌感染的有希望的有效方法。VFs 是介导病原菌感染的关键分子,使病原体能够建立感染并引起宿主损伤,是致病机制的核心。然而,现有的 VFs 识别方法主要依赖序列相似性,无法发现远源同源关系,在处理远源同源物时存在局限性。
为解决这一问题,华东交通大学信息与软件工程学院、湖南大学计算机科学与电子工程学院和山东师范大学信息科学与工程学院的研究人员开展了相关研究,开发了一种基于蛋白质语言模型和集成学习的 VFs 识别方法(PLMVF),该研究成果发表在《BMC Genomics》。
研究人员主要采用了以下关键技术方法:利用 ESM-2 蛋白质语言模型和 ESMFold 分别提取蛋白质序列特征和三维(3D)结构特征;通过 TM-align 计算蛋白质的真实 TM-score(一种衡量蛋白质结构相似性的指标),并训练 TM-predictor 模型预测结构相似性,以捕捉序列中隐藏的远源同源信息;将 ESM-2 提取的序列级特征与预测的 TM-score 特征连接,形成综合特征集,输入到集成模型(包含 RF、SVM、XGBoost 和 MLP 等基学习器)进行训练,最后使用 Knowledge-Augmented Network(KAN)进行 VFs 预测。研究使用的数据集来自 VICTOR、VFDB 和 PATRIC 等公共存储库,经过去冗余和平衡处理后,包含 3,576 个 VF 和 4,910 个非 VF 序列,分为训练集和测试集。
模型性能评估
研究采用七项指标评估模型性能,包括 AUC、AUPR、F1-score、Accuracy、Recall、Specificity 和 Precision。十折交叉验证结果显示,PLMVF 在验证集上的平均准确率为 0.889,平均 AUC 和 AUPR 分别达到 0.948 和 0.942,表现出优异的性能。
不同方法性能比较
将 PLMVF 与现有基于序列和结构的模型进行比较,结果表明 PLMVF 在所有评估指标上均表现最佳。在准确率方面,PLMVF 分别比 CNN、GRU、LSTM、Transformer、GCN 和 GAT 高出 3.91%、2.52%、3.07%、3.56%、2.49% 和 4.03%,凸显了整合多模态信息的有效性。
消融研究
通过消融研究探讨各组件对 PLMVF 预测性能的影响,发现去除预测的 TM-score 特征或 ESM-2 序列特征均导致模型性能下降,表明结构和序列特征的重要性。此外,KAN 分类器的使用也对模型性能有提升作用,验证了其在优化特征交互和增强模型泛化能力方面的有效性。
不同分类器和集成方法的影响
比较不同分类器性能,KAN 分类器在测试集上的准确率为 0.861,优于 SVM、RF、LR 和 MLP 等其他分类器,且在验证集上表现出良好的泛化性和稳定性。在集成方法比较中,堆叠方法在所有指标上均优于其他集成方法,显示出其在整合多个基模型预测结果方面的优势。
远程同源对检测
PLMVF 能够准确检测远源同源对,即使蛋白质序列相似性低,但结构相似性高。通过案例研究和线性相关性分析,验证了 TM-predictor 在预测结构相似性方面的准确性,表明 PLMVF 能够利用蛋白质语言模型从深层序列嵌入中提取远源同源信号。
研究提出的 PLMVF 模型为 VFs 识别提供了一种高效的计算方法,通过整合序列和结构特征,有效捕捉远源同源信息,显著提高了预测准确性。该研究为开发抗毒力疗法提供了理想工具,有望为病原菌感染的有效预防和控制做出贡献。尽管 PLMVF 存在一定局限性,如目前仅基于翻译的编码区蛋白质序列,未来计划扩展到使用核苷酸序列作为输入等,但它仍为抗耐药菌感染研究提供了重要的新方向和工具。