基于自动机器学习的MaxQsaring框架揭示hERG阻断预测的最优分子特征及其在药物发现中的应用

【字体: 时间:2025年07月25日 来源:Journal of Pharmaceutical Analysis 6.1

编辑推荐:

  为解决药物发现中hERG(human ether-à-go-go-related gene)阻断预测的准确性和可解释性难题,研究人员开发了MaxQsaring框架,整合分子描述符、指纹和深度学习预训练表征,通过自动特征组合优化,在TDC(Therapeutics Data Commons)22项任务中19项排名第一,并识别出10个可解释的关键分子特征,为早期药物研发提供了高成功率的通用性预测工具。

  

在药物研发领域,hERG钾通道的意外阻断是导致心脏毒性的主要原因之一,每年因此终止开发的候选药物比例高达30%。传统预测方法面临两大瓶颈:一是模型对新型化学支架(scaffold)的泛化能力不足,二是深度学习模型的“黑箱”特性阻碍了化学家的理性设计。尽管已有Chemprop等框架尝试结合图神经网络(GNN),但特征组合的随机性和解释性缺失问题仍未解决。

北京大学的研究团队在《Journal of Pharmaceutical Analysis》发表的研究中,提出了名为MaxQsaring的自动化建模框架。该研究通过整合62种传统分子指纹/描述符和30种深度学习预训练表征(如GROVER、Chemprop),采用定向特征组合策略和XGBoost算法,构建了hERG阻断预测模型。关键创新在于:首次实现分子特征的自动化最优组合搜索,并通过决策树(MQ-DT)提取出SlogP(疏水性参数)、nBase(碱性基团数)等10个可解释特征,其预测结果与降低logP(分配系数)、增加刚性等经验优化策略高度吻合。

技术方法上,研究采用12,620个化合物的训练集和两个独立外部测试集(含10个新支架的116个分子),通过5折交叉验证(CV)和支架分割(scaffold split)评估性能。利用RDKit计算分子描述符,整合GROVER自监督表征和Chemprop监督微调特征,最终通过XGBoost的特征重要性分析识别关键参数。

研究结果显示:

  1. 自动建模框架性能:在支架分割下,最优特征组合(Mordred描述符+PubChem指纹)的CV-MCC(Matthew相关系数)达0.608,优于DeepHIT等现有工具。
  2. hERG优化指导能力:模型对文献案例的Spearman排序相关性达0.866,如预测将4-氟苯基替换为吡唑基可降低logP值(4→2.1),使IC50从1.5 μM升至>60 μM。
  3. 关键特征识别:Top 10特征中,SlogP>3.6是区分阻断剂的关键阈值,与已知hERG“疏水腔结合”机制一致。
  4. 跨任务扩展性:在TDC的22项ADME/T任务中,19项排名第一,如CYP3A4抑制预测的AUPRC(精确召回曲线下面积)达0.923。
  5. 新支架预测优势:在10个新支架测试集上,MQ-Scaffold的MCC(0.521)显著高于CardioToxCSM(0.305),证明其突破性泛化能力。

讨论部分指出,MaxQsaring的突破在于平衡了精度与可解释性:通过约束性特征组合避免过拟合,而简单算法保障了决策透明性。相比uni-QSAR等框架,其“特征优先”策略更适配药物发现场景。局限性在于自监督表征对泛化能力提升有限,未来需开发更解释性的深度学习方法。该研究为药物心脏毒性预测提供了新范式,其开源框架可直接应用于其他分子属性预测,显著加速药物研发流程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号