
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习驱动的定量构效关系研究:靶向疟原虫二氢乳清酸脱氢酶抑制剂的抗疟耐药性突破
【字体: 大 中 小 】 时间:2025年06月21日 来源:In Silico Research in Biomedicine
编辑推荐:
针对疟原虫对青蒿素等一线抗疟药的耐药性问题,研究人员采用12种机器学习模型结合12类分子指纹,构建了PfDHODH抑制剂的QSAR分类模型。研究发现基于SubstructureCount指纹的随机森林模型(MCCtest>0.76)能有效识别含氮/氟/氧芳香族等关键药效团,为抗疟药物设计提供了新策略。
疟疾仍是全球重大公共卫生威胁,2023年WHO报告显示全球约2.63亿病例,其中95%死亡病例集中在非洲地区。尽管RTS,S和R21疫苗的推广带来希望,但疫苗保护期短(需加强接种)和疟原虫对青蒿素等抗疟药普遍产生的耐药性,使得开发新靶点药物迫在眉睫。疟原虫二氢乳清酸脱氢酶(Plasmodium falciparum dihydroorotate dehydrogenase, PfDHODH)作为嘧啶从头合成的关键限速酶,其抑制剂能阻断寄生虫增殖,成为抗疟药物研发的热点靶标。然而现有抑制剂存在物种选择性差、抗性突变等问题,亟需系统性研究其构效关系。
为应对这一挑战,研究人员开展了基于机器学习的定量构效关系(QSAR)研究。通过ChEMBL数据库获取710个PfDHODH抑制剂(ChEMBL ID CHEMBL3486),经严格数据清洗后保留465个化合物(202活性/263非活性)。采用PaDEL软件计算12类分子指纹(包括2D AtomsPair、PubChem等),结合Lipinski五规则描述符(MW、ALogP等)。研究创新性地对比了过采样、欠采样和不平衡数据处理策略,通过5折分层交叉验证评估了12种机器学习模型(随机森林、XGBoost等)的性能。
关键技术包括:1)采用Kennard-Stone算法按8:2划分数据集;2)基于方差阈值(0.1)的特征选择;3)应用Gini指数评估特征重要性;4)以马修斯相关系数(MCC)为核心评价指标;5)通过PCA界定模型适用域。
化学空间分析显示,活性与非活性化合物在LogP(p=0.011)和氢键供体数(p=1.386e-10)存在显著差异。模型构建结果表明,过采样策略最优,随机森林(RF)结合SubstructureCount指纹在测试集的MCC达0.76(准确率88.2%),显著优于其他组合。特征重要性分析揭示前20位关键药效团可分为7类:1)芳香/共轭特征(如SubFPC274芳香环);2)含氮特征(如SubFPC295 C-ONS键);3)脂肪族特征(如SubFPC1伯碳);4)卤代特征(如SubFPC9氟烷基);5)含氧特征(如SubFPC88羧酸衍生物);6)杂环特征(如SubFPC275杂原子环);7)手性/柔性特征(如SubFPC307手性中心)。特别值得注意的是,含氮基团通过与His185形成氢键网络,而氟原子通过增强疏水相互作用提高结合力,这与已知抑制剂DSM265(含六氟苯基)的晶体结构证据一致。
该研究首次系统评估了不同指纹-算法组合对PfDHODH抑制剂分类的适用性,建立的QSAR模型不仅预测性能优异(AUC>0.8),更具明确的机制解释性。发现的手性中心(SubFPC307)和旋转键(SubFPC302)等特征为设计选择性抑制剂提供了新思路,而氮/氟/氧芳香族药效团的识别则与已知临床候选药物(如triazolopyrimidine类)的结构特征高度吻合。研究成果已开源(GitHub),为抗疟药物发现提供了可解释的AI工具,加速了针对耐药疟疾的靶向药物开发进程。
这项发表在《In Silico Research in Biomedicine》的工作,通过创新性地整合机器学习与化学信息学方法,突破了传统QSAR模型在抗疟研究中的局限性。其构建的预测模型不仅能准确区分活性/非活性化合物,更通过特征重要性分析揭示了PfDHODH抑制剂的分子识别规律,包括:1)手性中心对结合选择性的关键作用;2)氟原子数目的"双刃剑"效应(增强结合但可能降低选择性);3)氮杂环作为"药效团枢纽"的重要性。这些发现为后续结构优化提供了明确方向,特别是针对非洲高负担国家(如尼日利亚占全球儿童疟疾死亡39.3%)的耐药疟疾防控具有重要实践意义。未来研究可结合该模型开展虚拟筛选,并探索特征组合与抗性突变间的关联规律。
生物通微信公众号
知名企业招聘