应对机器学习辅助的抗菌活性预测这一挑战:通过神经网络模型,我们向可控的季铵化合物设计迈进了一步

《Bioorganic Chemistry》:Tackling the challenge of ML-assisted antibacterial activity prediction: One step closer to controlled quaternary ammonium compounds design via neural networks model

【字体: 时间:2025年11月07日 来源:Bioorganic Chemistry 4.7

编辑推荐:

  机器学习模型预测QACs抗菌活性及杀菌浓度研究。提出基于LeakyReLU激活函数的多层感知机(MLP)模型,通过递归特征消除结合随机森林进行特征筛选,在革兰氏阴性大肠杆菌和阳性金黄色葡萄球菌数据集上验证,MIC和MBC预测准确率61-69%,R2达0.68。对比发现复杂网络结构未提升预测精度,Kolmogorov-Arnold网络表现欠佳。采用生物信息驱动堆叠方法增强预测能力,并成功外推验证新型双季铵盐化合物。本研究为抗感染药物开发提供高效辅助工具,尤其适用于小样本数据场景。

  
埃戈尔·A·伊林(Egor A. Ilin)|尼基塔·A·弗罗洛夫(Nikita A. Frolov)|玛丽·A·塞费里安(Mary A. Seferyan)|安瓦尔·B·瓦列夫(Anvar B. Valeev)|安德烈·D·维诺库罗夫(Andrey D. Vinokurov)|埃琳娜·V·杰图舍娃(Elena V. Detusheva)|伊丽莎白·索恩(Elizabeth Son)|迈克尔·G·梅德韦杰夫(Michael G. Medvedev)|阿纳托利·N·韦列什恰金(Anatoly N. Vereshchagin)
俄罗斯科学院N·D·泽林斯基有机化学研究所,列宁斯基大街47号,莫斯科119991,俄罗斯联邦

摘要

耐药性细菌病原体的持续出现对现有抗菌药物的有效性构成了重大威胁,使数百万人的生命面临风险。然而,现代机器学习(ML)工具有望推动抗菌剂研发工作的不断进展。本文提出了一种利用自适应神经网络模型预测季铵化合物(QACs)抗菌活性的新方法。首先采用递归特征消除方法结合随机森林(Random Forest)作为基础模型进行特征选择,随后使用多层感知器(MLP)模型进行回归分析,基线架构采用LeakyReLU激活函数。系统评估表明,架构复杂性并不会提高抗菌活性预测的准确性。相比之下,Kolmogorov-Arnold网络的性能明显低于简单的MLP架构。通过引入基于生物学信息的堆叠方法,该模型能够成功预测革兰氏阴性菌大肠杆菌 ATCC 25922和革兰氏阳性菌金黄色葡萄球菌 ATCC 43300的最小抑菌浓度(MIC)和最小杀菌浓度(MBC),在新合成化合物上的外部验证中准确率达到61–69%,R2值为0.68。即使数据集有限,该模型也能成为抗菌药物发现的有效辅助工具。

引言

新型抗菌剂的研发面临科学、经济和监管方面的挑战,这些问题因抗菌素耐药性(AMR)以及创新不足而更加严重[[1], [2], [3], [4]]。革兰氏阴性菌由于其外膜和外排泵的存在,在杀菌剂达到有效浓度之前就能将其排出体外,从而增加了研发的难度[5,6]。根据《柳叶刀》2024年的报告,如果不采取额外措施,到2050年全球可能因AMR导致191万人死亡,另有822万人因此丧生[7]。为应对这一危机,亟需采取行动突破科学瓶颈,加快新型抗菌剂的研发进程[8]。目前许多药物化学项目正致力于利用机器学习(ML)开发新工具,虽然已取得初步成果,但尚未产生突破性候选药物。
在当前时代,基于ML的技术通过快速分析海量数据,正在以远超传统方法的速度改变现代科学领域[[9], [10], [11], [12]]。在药物化学应用中,ML模型能够加速有潜力药物的筛选,减少结构分析、合成、疗效和毒性预测所需的劳动强度,并通过分析生物和化学数据发现现有药物的新用途[[13], [14], [15], [16], [17], [18], [19], [20], [21], [22]]。然而,ML的应用也存在一些问题,如数据质量参差不齐、碎片化、解释性差以及集成难度大[[23], [24], [25]]。因此,要实现可靠的预测结果并有效整合ML到药物化学研究中,需要先进的数据共享框架以及计算科学家、化学家和生物学家之间的紧密合作[26]。
本文提出了一种利用自适应神经网络(NN)模型预测季铵化合物(QACs)抗菌活性的新方法。QACs是现代消毒剂的重要组成部分,对于阻止细菌感染传播至关重要[[27], [28], [29], [30], [31]]。尽管新QACs的合成方法已较为成熟,但针对其活性的神经网络应用研究仍较为有限。2009年,布钦斯基(Buciński)及其同事使用Statistica v.8软件中的自动人工神经网络(ANN)模块预测了取代基吡啶衍生物对白色念珠菌的抗菌活性[32]。该模型基于39个描述符和44个化合物进行训练,验证结果显示R2值为0.73。后续研究将ANN的应用范围扩展到咪唑衍生物和双咪唑衍生物,训练集包含140个化合物,预测准确率R2达到0.82,相对误差RMSEP为0.56[[34], [35], [36]]。2021年,蒂霍宁(Tiihonen)等人提出了一个针对共轭寡电解质的ML模型,该模型使用了136种双季铵和多季铵化合物[37]。该模型包含21个主要描述分子三维结构的参数,对大肠杆菌的抗菌活性预测的R2值为0.65(见图S1)。
上述研究仅涉及MIC预测。然而,要全面评估QACs的效果,还需考虑其杀菌能力,即预测实现灭菌所需的最小杀菌浓度(MBC)。因此,在本研究中,我们开发了针对两种病原体(革兰氏阳性菌金黄色葡萄球菌和革兰氏阴性菌大肠杆菌)的MIC和MBC预测模型(见图1)。预测模型包含了43个分子描述符以及每种细菌的特异性信息。为提高对大肠杆菌的预测准确性,采用了基于生物学信息的堆叠方法。此外,为了模拟实际应用场景(即模型可能用于与其训练数据不同的分子,即“领域外数据点”),我们在27种领域外QACs上对模型进行了验证,其中24种是本研究首次合成的。所开发的模型具有良好的泛化能力,为高效杀菌剂的ML驱动开发迈出了重要一步。

训练集QACs的设计

训练集设计是构建稳健ML模型的基础,其主要目标是通过迭代学习调整参数[38,39]。本研究使用的数据集包含108种不同的QACs,主要是双季铵和三季铵化合物(见图S2)。这些化合物由于具有多个正电荷和疏水尾部,因此比单季铵化合物具有更强的抗菌性能[27,40,41]。

结论

我们成功开发并验证了一个用于预测金黄色葡萄球菌大肠杆菌抗菌活性的ML框架,该框架在多种评估指标上表现出出色的预测能力。与梯度提升方法和图神经网络等替代架构相比,采用LeakyReLU激活函数的优化MLP模型在MIC预测方面的性能更优,R2值为0.58。

一般信息

所有起始试剂均从商业供应商处购买,无需进一步纯化即可使用。所用溶剂均为试剂级,并在使用前进行了蒸馏。对空气敏感的反应在高纯度氩气环境下进行。薄层色谱分析使用硅胶60F254铝片在紫外光下完成。红外光谱采用Bruker ALPHA-T FT-IR光谱仪和KBr颗粒记录。高分辨率质谱(HR-ESI-MS)数据由Bruker microTOF II仪器采集。

作者贡献声明

埃戈尔·A·伊林(Egor A. Ilin):撰写 – 审稿与编辑、初稿撰写、数据可视化、验证、软件开发、项目管理、方法论设计、实验设计、数据分析、概念构建。尼基塔·A·弗罗洛夫(Nikita A. Frolov):撰写 – 审稿与编辑、初稿撰写、数据可视化、验证、项目监督、方法论设计、实验设计、数据分析、概念构建。玛丽·A·塞费里安(Mary A. Seferyan):撰写 – 审稿与编辑、验证、方法论设计

利益冲突声明

作者声明不存在可能影响本文研究的已知财务利益或个人关系。
致谢
本研究得到了俄罗斯联邦科学与高等教育部(Ministry of Science and Higher Education of the Russian Federation)的支持,项目编号为075-15-2024-531。部分研究工作还得益于俄罗斯高等教育研究院(NRU HSE)的高性能计算(HPC)资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号