ADMET预测中机器学习模型的基准研究：基于配体的特征表示对模型性能的实际影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月23日 来源：Journal of Cheminformatics 7.1

编辑推荐：

　　本研究针对ADMET（吸收、分布、代谢、排泄和毒性）预测中的关键挑战，系统评估了不同特征表示对机器学习模型性能的影响。研究人员通过结构化特征选择方法，结合交叉验证与统计假设检验，显著提升了模型评估的可靠性。结果表明，RDKit描述符与特定指纹组合（如ECFP4、ERG）在回归和分类任务中表现最优，而深度学习特征在该领域未显现优势。研究还验证了跨数据集预测的可行性，为药物发现中外部数据的整合提供了实践指导。

在药物研发领域，准确预测化合物的ADMET（吸收、分布、代谢、排泄和毒性）性质是决定候选药物成败的关键。然而，当前机器学习模型面临两大痛点：一是特征表示的选择缺乏系统性依据，研究者常随意组合不同描述符；二是模型评估方法过于依赖单一测试集，难以反映真实性能。这些问题导致预测结果可靠性存疑，制约了计算方法在药物发现中的应用。

针对这些挑战，来自Ro5-ai的研究团队在《Journal of Cheminformatics》发表了一项开创性研究。他们系统评估了11种特征表示（包括传统描述符和深度学习嵌入）在25个ADMET数据集上的表现，提出了一种基于统计验证的迭代特征选择方法。研究发现，RDKit描述符结合扩展简化图（ERG）和ECFP4指纹的模型在回归任务中表现最佳，而RDKit+ERG+Avalon组合则更适合分类任务。值得注意的是，深度学习特征（如MolFormer、GROVER）未能超越传统方法，这可能与ADMET数据的高噪声特性有关。

研究采用了三项关键技术方法：

数据清洗标准化流程：通过SMILES标准化、盐形式处理和去重策略，处理了TDC、NIH和Biogen等公开数据集的不一致问题。
假设检验驱动的模型评估：将10折交叉验证与Nemenyi检验结合，显著提升了性能比较的统计效力。
跨数据集迁移实验：首次系统评估了不同实验室数据（如hPPB、HLM）的预测兼容性，为外部数据整合提供量化依据。

模型选择与特征优化
通过1375次模型训练对比，CatBoost在组合特征时显著优于SVM和随机森林（p<0.05）。特征重要性分析显示，RDKit描述符在回归任务中优势明显（平均排名1.91），而深度学习特征普遍表现欠佳（如MolFormer排名6.38）。

跨数据集验证的实践启示
在hPPB和溶解度预测中，结合外部数据可提升模型性能（RMSE降低5-10%）。但当内部数据占比超过5%时，外部数据的增益逐渐消失，这一发现为数据采集策略提供了量化指导。

这项研究的意义在于建立了ADMET预测的标准化流程：

方法论层面：证明了统计检验比单一测试集更能反映模型真实性能，10折交叉验证中仅11/25数据集显示显著改进，但这些改进100%能在测试集中复现。
实践层面：明确了传统描述符在ADMET预测中的优势，建议优先采用RDKit+ECFP4+ERG组合，避免盲目使用深度学习特征。
行业应用：跨数据集实验结果证明，在确保实验条件相似的前提下（如hPPB数据Pearson R=0.98），整合外部数据可有效缓解早期药物发现中的数据短缺问题。

研究还揭示了领域特定现象：虽然HLM数据在不同实验室间相关性高（R=0.92），但因分布差异（p~10^-39），直接迁移预测效果不佳。这提示未来研究需更关注实验条件标准化，而非单纯追求算法创新。论文提供的开源框架（GitHub: Ro5-ai/bio2d_public）已包含全部清洗后的数据集和特征，有望成为领域新基准。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号