杀菌剂发现的双策略方法:基于机器学习的活性预测与片段共现网络构建

《Advanced Agrochem》:Dual-Strategy Approach for Fungicide Discovery: Machine Learning-Based Activity Prediction and Fragment Co-occurrence Network Construction

【字体: 时间:2025年11月02日 来源:Advanced Agrochem CS9.7

编辑推荐:

  杀菌剂预测模型APPf基于多尺度特征筛选与机器学习算法开发,解决了现有方法准确性不足和无法考虑结构片段协同效应的问题。通过SHAP分析识别关键分子描述符nHdNH和NssssNp,构建了包含328个片段的共现网络,指导新药设计。模型在线平台已部署,显著提升杀菌剂研发效率。

  在农业和植物保护领域,真菌病害是导致作物减产和品质下降的主要因素之一。据全球统计,每年因病害、害虫和杂草造成的作物损失约占30%至40%。为了有效应对这一挑战,农药的研发成为保障粮食安全的重要手段,但传统方法在研发周期和成本方面存在显著不足。此外,长期不合理使用农药还引发了“3R问题”,即抗药性、残留污染和害虫再猖獗。这些问题促使科学家们不断探索更高效、更环保的新型杀菌剂。然而,现有杀菌剂的筛选方法往往存在准确性不高、泛化能力差的缺陷,而基于片段设计的策略则常常忽略了不同结构单元之间的协同效应,导致许多新设计的分子未能达到预期的生物活性。

为解决上述问题,本研究基于一个有限的杀菌剂数据集,构建了一个高效且具有预测能力的全局模型——APPf。该模型通过多尺度特征筛选方法与多种机器学习算法相结合,不仅提升了杀菌活性的预测精度,还能够识别不同结构片段之间的协同作用。为了验证模型的性能,我们采用了三个独立的外部测试集:第一个测试集用于一般验证,第二个测试集用于与现有模型的对比,第三个测试集则专门用于针对特定植物病害的杀菌剂评估。在第一个测试集中,APPf模型实现了0.6454的精确度、0.8535的召回率和0.7350的F1分数,展示了其强大的预测能力。在第二个测试集中,APPf模型在高预测得分区间内表现出显著的正样本富集能力,而在第三个测试集中,该模型对每种病害的预测准确率均超过80%,表明其在实际杀菌剂开发中的广阔前景。

为了进一步提升模型的可解释性,我们使用SHAP值分析方法量化了分子描述符对模型预测的贡献。分析结果显示,nHdNH和NssssNp是预测杀菌活性的关键特征,分别代表分子中亚胺氮原子和季铵氮原子的数量。这两个特征的平均绝对SHAP值分别为0.59和0.58,表明它们在模型决策过程中起到了重要作用。此外,AATSC5m和AATSC6m这两个描述符也表现出较高的贡献,它们代表了分子结构中重原子在拓扑距离为5或6的排列情况。这些结果揭示了模型在区分杀菌活性时主要依赖于特定氮原子类型的出现,从而为杀菌剂的设计提供了理论依据。

除了对模型本身的优化,我们还通过分子片段策略分析了已知杀菌剂分子中片段之间的共现关系,并构建了一个与杀菌活性相关的片段共现网络图。该网络图由328个结构多样的片段节点和338条共现边组成,其中连接活性片段和非活性片段的边占比较高(50.89%),显著高于活性-活性片段(39.94%)和非活性-非活性片段(9.17%)之间的连接。这一发现表明,非活性片段可能在构建高效杀菌剂中起到关键的协同作用,即使它们单独对生物活性的贡献有限。例如,我们以一个实际的杀菌剂——boscalid为例,分析了其结构组成及其预测得分。boscalid由2-氯烟酰氯和4′-氯-2-氨基联苯组成,其中2-氯烟酰氯的预测得分为0.6558,表明其具有一定的杀菌潜力,而4′-氯-2-氨基联苯的预测得分为0.2397,属于非活性片段。然而,当这两个片段组合在一起时,最终的boscalid预测得分为0.9186,显示出显著的杀菌活性。实验结果表明,boscalid对多种真菌病害具有广谱活性,包括白粉病、灰霉病、根腐病、菌核病和多种腐烂病原体。其作用机制是通过抑制琥珀酸脱氢酶(SDH)来实现的,而非活性片段(如4′-氯-2-氨基联苯)通过其大而刚性的平面结构,为烟酰胺部分提供了空间锚定作用,使其能够进入特定的空间构型,从而与SDH靶点形成稳定的结合。此外,联苯结构还增强了boscalid的脂溶性(ClogP),有助于其穿透真菌细胞壁和膜,到达靶点区域。这一案例说明了如何通过活性与非活性片段的组合来构建具有高效杀菌活性的分子,非活性片段可能通过调节分子构型或优化理化性质来提升整体效果。

为便于研究人员在杀菌剂开发中使用APPf模型,我们开发了一个名为APPf的免费在线预测平台。该平台基于Python和Streamlit框架,支持单分子和批量化合物的预测任务。用户可以通过输入SMILES字符串或上传SDF格式文件进行预测。对于单分子预测,结果页面不仅展示了输入化合物的分子结构,还提供了杀菌活性的预测概率、基于子结构的活性映射图以及分子描述符的贡献分析。对于批量预测,平台报告了成功处理和失败处理的分子数量,并提供了详细的预测结果列表。该平台提供了高效且直观的可视化工具,使研究人员能够快速评估化合物的杀菌潜力,识别关键的分子描述符,并指导候选分子的结构优化。其开放访问、基于网络的模式显著提升了模型的实用性,并为发现和设计新型绿色杀菌剂提供了有力支持。

尽管APPf模型在预测杀菌活性方面表现出色,但仍然存在一些局限性。目前,该模型输出的是化合物具有杀菌活性的概率,这些预测仍需通过生物活性实验进行验证。在实验过程中,所选测试菌株的代表性和范围可能限制对化合物真实杀菌活性的全面评估。此外,模型无法完全避免由于菌株选择偏差导致的假阴性风险。因此,建议未来的研究应纳入更广泛的菌株种类,以实现对化合物活性的更系统评估。同时,在模型构建过程中,我们采用了一种基于分子结构分层随机采样的策略,以平衡正负样本的比例。这种策略虽然有助于提升模型的稳定性,但也导致部分负样本信息未能被充分探索。未来的工作可以整合更全面的负样本数据,开发更先进的采样算法,或引入不平衡学习策略,以进一步提升模型在预测化合物杀菌潜力方面的稳健性和可靠性。

为了确保模型的准确性,我们对数据集进行了详细的收集和预处理。数据集涵盖了3,028种农药,来源于BCPC、PPDB和Pesticide Info等数据库。其中包含489种杀菌剂、2,244种非杀菌剂以及295种同时具有杀菌活性和其他生物活性的农药。杀菌剂被作为正样本,而9,970种由Fusilier等人整理的非农药则被用作未标记样本。通过PU学习方法,我们进行了迭代训练,最终识别出4,383种可靠的非农药。将489种杀菌剂作为正样本,与2,244种非杀菌剂和4,383种可靠非农药结合,形成初始的负样本集。为了减少负样本集中可能存在的杀菌活性相关片段的干扰,我们进一步去除了含有高概率杀菌活性片段的化合物。通过计算特定片段在所有含有该片段的化合物中具有杀菌活性的比例,我们设定了一个条件概率阈值(≥0.5),将超过该阈值的片段定义为高概率杀菌活性片段。最终,我们获得了6,409个更可靠、更精炼的负样本集。

为了应对正负样本集之间的类别不平衡问题,我们采用了一种基于分子结构聚类的分层随机采样策略,以构建平衡的数据集。首先,使用RDKit生成负样本集中所有化合物的Morgan指纹,然后根据Tanimoto相似度(阈值为0.8)对化合物进行聚类,将高度相似的化合物归为一类。根据每个聚类中化合物数量与负样本集总样本数的比例,我们分配了采样权重。以正样本数量(P = 489)为参考,我们建立了五种P:N比例:1:1、1:2、1:3、1:4和1:5。对于每种比例,我们根据采样权重从每个聚类中随机选取负样本。如果总采样数量低于目标值,则主要从最大聚类中选取更多样本。这一方法在保持结构多样性的同时,确保了正负样本的数量平衡。为了增强模型的稳健性并减少随机采样偏差,我们在每种P:N比例下应用了五种不同的随机种子,生成了五个不同的样本子集(Sample 1至Sample 5)。最终,构建了25个平衡的样本子集,每个子集均作为模型训练的输入。

在模型构建过程中,我们对每个样本子集独立进行了模型训练和优化。使用每个子集筛选后的描述符,我们最初构建了19个机器学习模型,并通过10折交叉验证进行了初步评估。根据F1分数对模型进行排名,每个子集的前五名模型被进一步进入超参数优化阶段,该阶段同样通过10折交叉验证进行验证和优化。优化的目标是最大化F1分数,从而在精确度和召回率之间取得平衡,提升整体预测性能。最终,我们获得了125个优化后的二分类模型。

为了全面评估模型的性能,我们采用了五个指标:精确度、召回率、F1分数、AUC(曲线下面积)和准确度。为了评估模型的泛化能力,我们构建了第一个外部测试集,该测试集基于结构聚类和分层随机采样,覆盖了广泛的化学空间。此外,为了评估模型对正样本的富集能力,我们使用APPf模型和Pesti-DGI-Net模型对第一个外部测试集进行了预测。然而,Pesti-DGI-Net模型未能处理176个样本,仅对370个化合物(130种杀菌剂和240种非杀菌剂)产生了有效预测。为了在相同数据条件下进行公平比较,这些370个化合物构成了第二个外部测试集,用于评估两个模型的正样本富集能力。

为了验证模型在实际杀菌剂开发中的应用潜力,我们构建了第三个外部测试集,该测试集包含45种用于控制12种植物病害的注册杀菌剂,数据来源于中国农药信息网(截至2025年3月)。需要注意的是,这三个外部测试集中的样本均未参与模型训练的任何阶段,包括模型拟合和超参数优化,确保了所有外部评估的独立性。APPf模型在训练集、内部测试集和外部测试集中的样本分布情况如表2所示。

在构建分子片段并分析其共现关系方面,我们采用了一种基于BRICS原理的逆合成分析策略,系统地将杀菌剂分子进行碎片化处理。该方法通过一组SMARTS反应规则,识别了合理且可合成的裂解位点,涵盖了14种关键的原子环境。生成的碎片经过连接点修复和标准化处理,并通过递归碎片化算法(最大原子数限制为20)进行尺寸控制,以符合基于片段的药物设计原则。随后,我们利用APPf模型对每个碎片的杀菌活性概率进行了预测,其中得分高于0.5的碎片被认定为具有生物活性。基于已知杀菌剂分子中片段的共现模式及其预测得分,我们构建了一个具有化学意义的片段共现网络图,以揭示与杀菌活性相关的片段之间的相互作用关系。

通过这些研究,我们不仅构建了一个高准确性的杀菌活性预测模型,还开发了一个便于研究人员使用的在线预测平台。该平台集成了多种科学计算库,包括RDKit、Pandas、NumPy、Matplotlib和SHAP,提供了全面的功能,如分子结构处理、分子描述符计算、基于机器学习的杀菌活性预测以及结果可视化。平台部署在一台运行Apache服务器的64位CentOS Linux系统上,硬件配置包括48核CPU和128GB内存,确保了大规模计算的高效性和交互的流畅性。该平台的访问地址为:http://pesticides.cau.edu.cn/APPf。

综上所述,本研究通过多尺度特征筛选、机器学习算法集成以及分子片段策略,构建了一个高效且具有预测能力的杀菌活性模型——APPf。该模型不仅在预测性能上表现出色,还具备良好的泛化能力和正样本富集能力,为杀菌剂的开发提供了有力支持。同时,通过SHAP值分析,我们明确了关键的分子描述符及其对模型预测的贡献,为模型的可解释性提供了理论依据。此外,构建的片段共现网络图为杀菌剂的理性设计和结构优化提供了新的视角。APPf平台的推出,使得研究人员能够更便捷地评估化合物的杀菌潜力,指导新型杀菌剂的开发,从而提高杀菌剂的研发效率。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号