
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图神经网络与跨物种数据的肝脏代谢稳定性预测模型MetaboGNN研究
【字体: 大 中 小 】 时间:2025年09月05日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对药物代谢稳定性预测的难题,开发了创新性深度学习模型MetaboGNN。研究人员通过整合图神经网络(GNN)与图对比学习(GCL)技术,结合人类(HLM)和小鼠(MLM)肝脏微粒体数据,构建了能够准确预测药物代谢稳定性的多任务学习框架。该模型在韩国2023药物发现数据挑战赛中表现优异,预测误差(RMSE)分别达到27.91(HLM)和27.86(MLM),并通过注意力机制识别出关键代谢稳定/不稳定分子片段,为药物先导化合物优化提供了重要工具。
在药物研发过程中,代谢稳定性是决定候选药物成败的关键因素之一。肝脏作为主要的代谢器官,其代谢能力直接影响药物的清除率、半衰期和口服生物利用度。然而,传统的体外代谢稳定性评估方法如肝细胞和微粒体实验,不仅成本高昂且通量有限,难以满足大规模化合物筛选的需求。虽然定量构效关系(QSAR)等计算方法有所应用,但现有模型在预测精度和解释性方面仍存在明显局限。更复杂的是,人类与模式动物(如小鼠)之间存在的代谢酶差异,常常导致临床前研究结果难以外推至人体。这些挑战促使研究人员寻求更先进的预测方法。
针对这一领域的关键需求,Jun Hyeong Park等研究团队在《Journal of Cheminformatics》发表了创新性研究成果。该研究基于2023韩国药物发现数据挑战赛提供的高质量数据集(3,981个化合物),开发了名为MetaboGNN的新型预测框架。这项工作的核心突破在于巧妙融合了图神经网络(GNN)的分子表征能力与图对比学习(GCL)的自监督策略,同时创新性地将跨物种代谢差异作为独立学习目标,实现了对药物代谢稳定性的精准预测。
研究采用了三项关键技术路线:(1)将分子结构转化为包含原子、键和环信息的图数据结构;(2)利用包含258万化合物的未标记数据集进行GCL预训练,采用属性掩蔽策略保持化学有效性;(3)构建多任务学习框架,同时预测MLM值和HLM-MLM差异,并通过EMA优化训练过程。数据来源于韩国化学银行(KCB),包含3,498个训练分子和483个测试分子,均通过LC-MS/MS测定30分钟孵育后母体化合物残留百分比。
Exploratory data analysis of liver microsomal stability data
通过核密度估计和主成分分析证实训练集与测试集分布均衡。关键发现是MLM值普遍低于HLM,且HLM-MLM差异呈现广泛分布(16.12-99.89),证实了物种间代谢酶差异的显著影响。物化性质分析显示LogD和AlogP与稳定性相关性最高(r>0.3),但与HLM-MLM差异无关(r≈0),表明物种差异主要源于酶学特征而非膜渗透性。
Ablation study on architecture for metabolic stability prediction
消融实验显示MetaboGNN(GCL)在测试集上表现最优(HLM RMSE=30.14;MLM RMSE=28.72),显著优于传统GIN、GAT等架构和ChemBERTa等化学语言模型。特别值得注意的是,GCL预训练带来的提升在有限数据条件下尤为明显,证明其能有效学习可迁移的分子表征。
Incorporating interspecies differences to enhance prediction accuracy
引入跨物种差异学习任务后,模型性能显著提升(HLM RMSE降至27.91;MLM降至27.86)。分组分析显示,对于|HLM-MLM|>16.12的化合物改进最显著(p<0.001),且低分子量(MW)和低极性表面积(MPSA)组获益更大。这表明模型成功捕捉了与酶特异性相关的代谢差异,而非仅反映物化性质差异。
Performance comparison
二分类任务中(阈值50%),MetaboGNN的AUROC达0.8137,马修斯相关系数(MCC=0.4781)显著优于MS-BACL和PredMS等现有方法。这种优势源于其独特的跨物种差异整合策略,相比仅依赖结构增强的对比学习方法更具生物学意义。
Visual analysis of bond importance for metabolic stability
通过EdgeSHAPer可视化发现:甲氧基苯(Cohen's d=1.32)和苄位碳(d=1.28)是主要不稳定位点,与CYP介导的O-去甲基化和氧化反应一致;而氟代芳环(d=-1.15)和磺酰胺(d=-0.98)则显示稳定作用。这些发现与传统药物化学知识高度吻合,证实模型能识别有意义的代谢敏感位点。
该研究通过创新性地整合深度学习与跨物种代谢差异分析,建立了代谢稳定性预测的新范式。MetaboGNN不仅实现了优于现有方法的预测精度(RMSE改善约10%),其注意力机制还能指导结构优化——这对解决药物研发中"代谢稳定性-活性"权衡难题具有重要价值。特别值得关注的是,模型揭示了物种差异主要源于CYP酶谱变异而非物化性质,这一发现为临床前数据转化提供了理论依据。尽管在酶特异性机制解析方面仍存在局限,但这项工作为AI驱动的ADMET预测树立了新标杆,其开源实现(https://github.com/qwon135/MetaboGNN)将助力更高效的药物设计。未来整合代谢位点(SoM)和酶亚型数据,有望进一步提升模型的预测能力和解释深度。
生物通微信公众号
知名企业招聘