韩国首届AI药物发现数据挑战赛:基于肝微粒体代谢稳定性数据的创新算法研究

【字体: 时间:2025年09月05日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对药物发现早期代谢稳定性预测的瓶颈问题,韩国化学银行(KCB)联合多家机构举办了JUMP AI 2023挑战赛,利用4000种化合物的人/小鼠肝微粒体(HLM/MLM)稳定性数据,吸引了1254支团队开发AI预测模型。获奖团队采用GNN(图神经网络)、对比学习等创新算法,最佳模型RMSE达26.36,首次验证了AI技术在韩国药物研发中的应用潜力,为ADME(吸收、分布、代谢、排泄)性质预测提供了新范式。

  

在药物研发的漫长征途中,代谢稳定性犹如一道"生死关卡"——据统计,近40%的候选药物因代谢过快而折戟沉沙。传统实验方法耗时耗力,而跨物种代谢差异更让研究者们头疼不已:小鼠体内稳定的化合物,在人体中可能迅速降解。面对这一困局,韩国研究团队另辟蹊径,将人工智能(AI)技术引入这场"代谢攻坚战"。

2023年,韩国化学研究院(KRICT)携手生物制药协会,以韩国化学银行(KCB)积累的4000种化合物代谢数据为"弹药库",打响了名为JUMP AI 2023的"算法战役"。这场竞赛的特殊之处在于,所有数据均来自标准化实验:化合物在37°C下与NADPH再生系统孵育30分钟后,通过LC-MS/MS(液相色谱-串联质谱)精确测定残留量,形成包含3498个训练样本和483个测试样本的珍贵数据集。

技术方法上,研究采用t-SNE(非线性降维)验证数据分布合理性,构建包含ECFP6(扩展连通性指纹)、AlogP等特征的分子描述符。参赛团队需预测HLM和MLM中的化合物残留百分比,评分采用RMSE(均方根误差)指标,并综合建模策略(10%)、数据预处理(10%)等要素进行多维评估。

竞赛结果

1254支参赛队伍中,764支提交了预测模型。最终胜出的五支团队均采用GNN相关技术:

  • Datu团队创新性地在分子图中引入环结构信息,通过对比学习预训练提升模型鲁棒性,其多任务学习框架同时预测HLM、MLM及种间差异,最终以93.865分夺冠

  • Suleezard团队采用D-MPNN(定向消息传递神经网络)捕捉键级反应特征,结合ChatGPT分析官能团模式,创造性地混合AlogP与LogD(7:3)作为新特征

  • Silryeokeuro Malhae团队在D-MPNN基础上加入全局多头注意力池化(GMHAP),并利用TDC(治疗数据共享库)的CYP450数据进行迁移学习

典型案例分析

模型在Test_261化合物上表现出色,准确预测了种间差异(小鼠84.7% vs 人类93.4%)。但对含溴芳香化合物Test_323预测失败,其与训练集最大相似度仅0.645,揭示了AI模型对结构新颖化合物的预测局限。

这项研究标志着韩国在AI驱动药物发现领域的重要突破。通过公开真实药物数据、吸引跨学科人才参与,JUMP AI 2023不仅验证了GNN在ADME预测中的优越性,更构建了产学研协同的创新生态。特别值得注意的是,获奖方案中对比学习、注意力机制等技术的成功应用,为处理种间代谢差异提供了新思路。未来,随着更多高质量数据的开放和算法优化,这类竞赛有望加速AI在药物研发中的转化应用,最终实现"减少动物实验、降低研发成本"的双重目标。正如研究者所言,这仅仅是韩国"数字生物创新"战略的第一步,持续的数据共享与跨界合作将是推动领域发展的关键动力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号