ADMET预测中机器学习模型的基准研究:基于配体的特征表示对模型性能的实际影响

【字体: 时间:2025年07月23日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  本研究针对ADMET(吸收、分布、代谢、排泄和毒性)预测中的关键挑战,系统评估了不同特征表示对机器学习模型性能的影响。研究人员通过结构化特征选择方法,结合交叉验证与统计假设检验,显著提升了模型评估的可靠性。结果表明,RDKit描述符与特定指纹组合(如ECFP4、ERG)在回归和分类任务中表现最优,而深度学习特征在该领域未显现优势。研究还验证了跨数据集预测的可行性,为药物发现中外部数据的整合提供了实践指导。

  

在药物研发领域,准确预测化合物的ADMET(吸收、分布、代谢、排泄和毒性)性质是决定候选药物成败的关键。然而,当前机器学习模型面临两大痛点:一是特征表示的选择缺乏系统性依据,研究者常随意组合不同描述符;二是模型评估方法过于依赖单一测试集,难以反映真实性能。这些问题导致预测结果可靠性存疑,制约了计算方法在药物发现中的应用。

针对这些挑战,来自Ro5-ai的研究团队在《Journal of Cheminformatics》发表了一项开创性研究。他们系统评估了11种特征表示(包括传统描述符和深度学习嵌入)在25个ADMET数据集上的表现,提出了一种基于统计验证的迭代特征选择方法。研究发现,RDKit描述符结合扩展简化图(ERG)和ECFP4指纹的模型在回归任务中表现最佳,而RDKit+ERG+Avalon组合则更适合分类任务。值得注意的是,深度学习特征(如MolFormer、GROVER)未能超越传统方法,这可能与ADMET数据的高噪声特性有关。

研究采用了三项关键技术方法:

  1. 数据清洗标准化流程:通过SMILES标准化、盐形式处理和去重策略,处理了TDC、NIH和Biogen等公开数据集的不一致问题。
  2. 假设检验驱动的模型评估:将10折交叉验证与Nemenyi检验结合,显著提升了性能比较的统计效力。
  3. 跨数据集迁移实验:首次系统评估了不同实验室数据(如hPPB、HLM)的预测兼容性,为外部数据整合提供量化依据。

模型选择与特征优化
通过1375次模型训练对比,CatBoost在组合特征时显著优于SVM和随机森林(p<0.05)。特征重要性分析显示,RDKit描述符在回归任务中优势明显(平均排名1.91),而深度学习特征普遍表现欠佳(如MolFormer排名6.38)。

跨数据集验证的实践启示
在hPPB和溶解度预测中,结合外部数据可提升模型性能(RMSE降低5-10%)。但当内部数据占比超过5%时,外部数据的增益逐渐消失,这一发现为数据采集策略提供了量化指导。

这项研究的意义在于建立了ADMET预测的标准化流程:

  1. 方法论层面:证明了统计检验比单一测试集更能反映模型真实性能,10折交叉验证中仅11/25数据集显示显著改进,但这些改进100%能在测试集中复现。
  2. 实践层面:明确了传统描述符在ADMET预测中的优势,建议优先采用RDKit+ECFP4+ERG组合,避免盲目使用深度学习特征。
  3. 行业应用:跨数据集实验结果证明,在确保实验条件相似的前提下(如hPPB数据Pearson R=0.98),整合外部数据可有效缓解早期药物发现中的数据短缺问题。

研究还揭示了领域特定现象:虽然HLM数据在不同实验室间相关性高(R=0.92),但因分布差异(p~10-39),直接迁移预测效果不佳。这提示未来研究需更关注实验条件标准化,而非单纯追求算法创新。论文提供的开源框架(GitHub: Ro5-ai/bio2d_public)已包含全部清洗后的数据集和特征,有望成为领域新基准。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号