新型抗菌剂的研发面临科学、经济和监管方面的挑战,这些问题因抗菌素耐药性(AMR)以及创新不足而更加严重[[1], [2], [3], [4]]。革兰氏阴性菌由于其外膜和外排泵的存在,在杀菌剂达到有效浓度之前就能将其排出体外,从而增加了研发的难度[5,6]。根据《柳叶刀》2024年的报告,如果不采取额外措施,到2050年全球可能因AMR导致191万人死亡,另有822万人因此丧生[7]。为应对这一危机,亟需采取行动突破科学瓶颈,加快新型抗菌剂的研发进程[8]。目前许多药物化学项目正致力于利用机器学习(ML)开发新工具,虽然已取得初步成果,但尚未产生突破性候选药物。
在当前时代,基于ML的技术通过快速分析海量数据,正在以远超传统方法的速度改变现代科学领域[[9], [10], [11], [12]]。在药物化学应用中,ML模型能够加速有潜力药物的筛选,减少结构分析、合成、疗效和毒性预测所需的劳动强度,并通过分析生物和化学数据发现现有药物的新用途[[13], [14], [15], [16], [17], [18], [19], [20], [21], [22]]。然而,ML的应用也存在一些问题,如数据质量参差不齐、碎片化、解释性差以及集成难度大[[23], [24], [25]]。因此,要实现可靠的预测结果并有效整合ML到药物化学研究中,需要先进的数据共享框架以及计算科学家、化学家和生物学家之间的紧密合作[26]。
本文提出了一种利用自适应神经网络(NN)模型预测季铵化合物(QACs)抗菌活性的新方法。QACs是现代消毒剂的重要组成部分,对于阻止细菌感染传播至关重要[[27], [28], [29], [30], [31]]。尽管新QACs的合成方法已较为成熟,但针对其活性的神经网络应用研究仍较为有限。2009年,布钦斯基(Buciński)及其同事使用Statistica v.8软件中的自动人工神经网络(ANN)模块预测了取代基吡啶衍生物对白色念珠菌的抗菌活性[32]。该模型基于39个描述符和44个化合物进行训练,验证结果显示R2值为0.73。后续研究将ANN的应用范围扩展到咪唑衍生物和双咪唑衍生物,训练集包含140个化合物,预测准确率R2达到0.82,相对误差RMSEP为0.56[[34], [35], [36]]。2021年,蒂霍宁(Tiihonen)等人提出了一个针对共轭寡电解质的ML模型,该模型使用了136种双季铵和多季铵化合物[37]。该模型包含21个主要描述分子三维结构的参数,对大肠杆菌的抗菌活性预测的R2值为0.65(见图S1)。
上述研究仅涉及MIC预测。然而,要全面评估QACs的效果,还需考虑其杀菌能力,即预测实现灭菌所需的最小杀菌浓度(MBC)。因此,在本研究中,我们开发了针对两种病原体(革兰氏阳性菌金黄色葡萄球菌和革兰氏阴性菌大肠杆菌)的MIC和MBC预测模型(见图1)。预测模型包含了43个分子描述符以及每种细菌的特异性信息。为提高对大肠杆菌的预测准确性,采用了基于生物学信息的堆叠方法。此外,为了模拟实际应用场景(即模型可能用于与其训练数据不同的分子,即“领域外数据点”),我们在27种领域外QACs上对模型进行了验证,其中24种是本研究首次合成的。所开发的模型具有良好的泛化能力,为高效杀菌剂的ML驱动开发迈出了重要一步。