可解释的支持向量分类器用于可靠预测改性肽对大肠杆菌的抗菌活性

《Journal of Molecular Graphics and Modelling》:Interpretable support vector classifier for reliable prediction of antibacterial activity of modified peptides against Escherichia coli

【字体: 时间:2025年10月09日 来源:Journal of Molecular Graphics and Modelling 3

编辑推荐:

  抗微生物肽(AMPs)作为传统抗生素的替代方案,因耐药性问题备受关注。本研究开发ISCAPE机器学习模型,仅通过SMILES字符串输入即可预测自然及修饰肽对大肠杆菌的抗菌活性(MIC≤16 μg/mL),并严格筛选实验条件一致的数据集。模型采用扩展连接指纹(ECFPs)和SHAP解释,AUROC达91.83%,MCC 71.86%,显著优于AntiMPmod。ISCAPE为设计新型稳定且可生物利用的AMPs提供可解释工具,减少SAR研究成本。

  抗菌肽(Antimicrobial Peptides, AMPs)作为一种新型的抗菌替代品,近年来引起了广泛关注。随着抗微生物耐药性(Antimicrobial Resistance, AMR)问题的日益严重,传统抗生素的疗效逐渐下降,因此,寻找有效的抗菌肽成为解决这一问题的重要方向。抗菌肽是一类具有广谱抗菌活性的天然或合成小分子,它们不仅能够直接破坏微生物细胞膜,还可能通过调节宿主免疫反应来发挥保护作用。然而,抗菌肽的临床应用仍面临诸多挑战,如高合成成本、免疫原性、低选择性、生物利用度差以及代谢不稳定等。为应对这些问题,研究人员开始利用机器学习(Machine Learning, ML)技术来预测和设计具有理想抗菌活性的肽类化合物。

为了提高抗菌肽的预测能力,研究团队开发了一种名为ISCAPE的机器学习模型。该模型旨在克服现有抗菌肽预测工具的局限性,并能够准确评估天然肽和化学修饰肽对大肠杆菌(Escherichia coli)ATCC 25922的抗菌活性。ISCAPE的输入仅需一个简化的分子输入线路入口系统(Simplified Molecular-Input Line-Entry System, SMILES)字符串,这使得其在使用上更加便捷。该模型能够预测不同肽类化合物的最小抑菌浓度(Minimum Inhibitory Concentration, MIC)值,即在MIC阈值≤16 μg/mL时,视为具有抗菌活性。为了确保模型的可靠性,研究团队特别关注了实验条件的一致性,并在数据集中只包括在相似实验条件下获得的MIC值。

ISCAPE在性能上优于目前最先进的抗菌肽预测模型AntiMPmod,其在接收者操作特征曲线下的面积(Area Under Receiver Operating Characteristics Curve, AUROC)达到91.83%,而马修相关系数(Matthew's Correlation Coefficient, MCC)则高达71.86%。这些指标表明ISCAPE在预测抗菌活性方面具有较高的准确性和可靠性。模型的性能主要依赖于一些关键的分子特征,如碳-碳对的比例以及基于特征和计数的扩展连接指纹(Extended Connectivity Fingerprints, ECFPs)。为了增强模型的可解释性,研究团队采用了SHapley Additive exPlanations(SHAP)方法,该方法能够识别对抗菌活性影响最大的分子特征,为实验人员提供明确的指导。

在当前的抗菌肽研究中,大多数预测模型并未针对特定的细菌种类进行优化,也缺乏明确的活性阈值。一些研究团队通过使用不同的机器学习方法和肽类特征,开发了针对特定细菌的预测模型,这些模型在Database of Antimicrobial Activity and Structure of Peptides(DBAASP)中有所展示。然而,尽管这些模型在某些方面有所改进,但它们在实验条件的标准化方面仍然存在不足。例如,Teimouri及其团队强调使用标准化实验条件下的MIC值来提高模型的可靠性,但这一方法尚未被广泛采用。

研究团队特别关注了化学修饰肽的抗菌活性预测,因为这些肽类化合物相比天然肽具有更高的稳定性和生物利用度。然而,现有的预测模型大多基于天然肽的序列进行训练,而化学修饰肽的使用在公共数据库中越来越普遍。因此,针对化学修饰肽的预测工具显得尤为重要。目前,AntiMPmod是唯一一个专门针对化学修饰肽进行训练的预测模型,但它仍然存在一些问题,如需要输入二级结构信息、缺乏特定细菌的优化、没有明确的活性阈值、未能考虑MIC实验的具体条件以及缺乏可解释性。

为了解决这些问题,研究团队开发了ISCAPE,这是一种全新的、可解释的机器学习模型,专门用于预测天然肽和化学修饰肽对大肠杆菌的抗菌活性。ISCAPE的输入仅需SMILES字符串,这使得其在实际应用中更加灵活和便捷。通过严格筛选MIC值,并确保实验条件的一致性,研究团队构建了一个高质量的数据集,为模型的训练提供了坚实的基础。此外,ISCAPE采用了圆环指纹(Circular Fingerprints)作为分子描述符,这种描述符能够直接从SMILES字符串生成,适用于多种肽类化合物的修饰,并且保持了化学和视觉上的可解释性。

ISCAPE的可解释性是其最重要的优势之一。通过使用SHAP方法,研究团队能够识别出哪些分子特征对抗菌活性至关重要,这为实验人员提供了明确的指导,使他们能够在设计新型抗菌肽时,有针对性地保留或修改某些关键结构特征。这种可解释性不仅减少了对耗时且费力的结构-活性关系(Structure-Activity Relationship, SAR)研究的依赖,还提高了抗菌肽设计的效率和成功率。

在抗菌肽的开发过程中,化学修饰是提高其稳定性和生物利用度的重要手段。常见的化学修饰包括非标准氨基酸替代、酰化、环化等。这些修饰可能会显著改变肽的结构和活性,因此,针对化学修饰肽的预测工具对于抗菌肽的研究具有重要意义。目前,大多数预测模型并未充分考虑这些化学修饰的影响,导致其预测结果的准确性受到限制。而ISCAPE通过引入新的分子描述符和优化的特征组合,成功克服了这一问题,为化学修饰肽的抗菌活性预测提供了更可靠的解决方案。

研究团队在数据集的构建过程中也充分考虑了实验条件的一致性。通过严格筛选MIC值,并确保实验条件的相似性,研究团队构建了一个高质量的数据集,这为模型的训练和验证提供了坚实的基础。此外,研究团队还对数据集进行了仔细的清洗和整理,确保数据的准确性和可靠性。这些工作不仅提高了模型的预测能力,还增强了模型的可解释性,使实验人员能够更好地理解哪些分子特征对抗菌活性最为关键。

ISCAPE的成功开发为抗菌肽的研究提供了新的工具和方法。通过结合机器学习技术与化学修饰知识,ISCAPE能够在不依赖复杂实验的情况下,快速评估不同肽类化合物的抗菌活性。这不仅有助于加快抗菌肽的发现和设计过程,还能够为抗菌肽的临床应用提供重要的支持。此外,ISCAPE的可解释性使其在实际应用中更加实用,为实验人员提供了明确的指导,使他们能够在设计新型抗菌肽时,有针对性地进行优化和调整。

总的来说,ISCAPE的开发代表了抗菌肽预测领域的一个重要进展。通过引入新的分子描述符和优化的特征组合,ISCAPE能够在不依赖复杂实验的情况下,快速评估不同肽类化合物的抗菌活性。同时,其可解释性使得实验人员能够更好地理解抗菌活性的决定因素,从而在设计新型抗菌肽时,有针对性地进行优化和调整。这些优势使得ISCAPE成为一种重要的工具,为抗菌肽的研究和开发提供了新的方向和支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号