基于AI驱动的深度神经网络与数据增强策略预测弓形虫二氢叶酸还原酶抑制剂活性研究

【字体: 时间:2025年04月22日 来源:Artificial Intelligence Chemistry

编辑推荐:

  本研究针对弓形虫病治疗药物开发中TgDHFR抑制剂活性预测数据不足的难题,创新性结合2D/3D分子描述符筛选、高斯噪声数据增强和集成DNN模型,将pIC50预测R2从0.75提升至0.85,并成功验证于FDA批准药物吡美莫司和甲氧苄啶(相对误差<3.5%),为抗弓形虫药物开发提供高效AI工具。

  

弓形虫病是由刚地弓形虫(Toxoplasma gondii)引发的全球性寄生虫感染,对免疫缺陷患者威胁尤为严重。当前临床药物如乙胺嘧啶虽能抑制寄生虫二氢叶酸还原酶(TgDHFR),但存在耐药性、毒副作用和无法清除组织包囊等局限。更令人担忧的是,针对这一关键靶点的研究长期受限于小样本数据集——现有预测模型如Mattioni等开发的ANN模型在测试集上R2骤降至0.626,凸显传统方法对异质化小数据的泛化能力不足。

为突破这一瓶颈,研究人员开发了一套整合多维分子特征与人工智能的创新方法。研究首先从BindingDB和ChEMBL数据库整合873个独特化合物的pIC50数据,通过四分位距法剔除异常值并转换为对数指标pIC50。特征工程阶段采用PaDELPy计算1875种描述符(含1444个2D描述符和431个3D描述符)及881位PubChem指纹,其中3D描述符通过RDKit的ETKDGv3构象生成和MMFF94s力场优化获得。核心模型采用四层DNN架构(128-64-32-16神经元),集成批量归一化和动态dropout(0.4-0.2),配合Adam优化器(初始学习率0.0007)和早停策略。

研究通过三大创新显著提升性能:首先,特征重要性分析揭示2D描述符(占58.1%)中自相关描述符(AutocorrelationDescriptor)和电拓扑状态原子类型描述符(ElectropologicalStateAtomTypeDescriptor)对预测贡献最大,3D描述符中径向分布函数描述符(RDFDescriptors)占比达59.3%。其次,采用两阶段高斯噪声注入(标准差0.01和0.001)将训练集扩增至2355样本,使模型在保留15%原始测试集上R2提升至0.85。最后,集成5次模型预测将吡美莫司和甲氧苄啶的pIC50预测误差控制在3.35%和2.15%以内。

在应用层面,研究团队对3451种FDA药物进行智能筛选:先通过元素组成过滤和隔离森林算法(5%污染率)剔除193个偏离训练集化学空间的分子,随后预测显示双醋苯啶(bisacodyl,pIC50=7.43)和依托度酸(etodolac,pIC50=7.20)具有最优抑制潜力。配体效率分析进一步揭示三氨蝶呤(triamterene)虽预测pIC50为6.83,但其结合效率指数(BEI=26.95)和脂溶性效率(LLE=5.83)表现突出。

这项发表于《Artificial Intelligence Chemistry》的研究开创性地证明:针对稀缺数据的靶向特征选择与智能增强策略,可显著提升生物活性预测模型的可靠性。该方法不仅为抗弓形虫药物开发提供新工具,其"描述符筛选-数据增强-集成学习"框架更可推广至其他数据匮乏的靶点研究。特别值得注意的是,研究首次系统评估了2D/3D描述符在TgDHFR抑制预测中的贡献度,为后续分子设计指明特征优化方向。未来结合Transformer指纹和分子动力学模拟,该技术路线有望加速针对罕见病原体的药物发现进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号