
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ADMET预测中机器学习模型的基准研究:基于配体的特征表示对模型性能的实际影响
【字体: 大 中 小 】 时间:2025年07月23日 来源:Journal of Cheminformatics 7.1
编辑推荐:
本研究针对ADMET(吸收、分布、代谢、排泄和毒性)预测中的关键挑战,系统评估了不同特征表示对机器学习模型性能的影响。研究人员通过结构化特征选择方法,结合交叉验证与统计假设检验,显著提升了模型评估的可靠性。结果表明,RDKit描述符与特定指纹组合(如ECFP4、ERG)在回归和分类任务中表现最优,而深度学习特征在该领域未显现优势。研究还验证了跨数据集预测的可行性,为药物发现中外部数据的整合提供了实践指导。
在药物研发领域,准确预测化合物的ADMET(吸收、分布、代谢、排泄和毒性)性质是决定候选药物成败的关键。然而,当前机器学习模型面临两大痛点:一是特征表示的选择缺乏系统性依据,研究者常随意组合不同描述符;二是模型评估方法过于依赖单一测试集,难以反映真实性能。这些问题导致预测结果可靠性存疑,制约了计算方法在药物发现中的应用。
针对这些挑战,来自Ro5-ai的研究团队在《Journal of Cheminformatics》发表了一项开创性研究。他们系统评估了11种特征表示(包括传统描述符和深度学习嵌入)在25个ADMET数据集上的表现,提出了一种基于统计验证的迭代特征选择方法。研究发现,RDKit描述符结合扩展简化图(ERG)和ECFP4指纹的模型在回归任务中表现最佳,而RDKit+ERG+Avalon组合则更适合分类任务。值得注意的是,深度学习特征(如MolFormer、GROVER)未能超越传统方法,这可能与ADMET数据的高噪声特性有关。
研究采用了三项关键技术方法:
模型选择与特征优化
通过1375次模型训练对比,CatBoost在组合特征时显著优于SVM和随机森林(p<0.05)。特征重要性分析显示,RDKit描述符在回归任务中优势明显(平均排名1.91),而深度学习特征普遍表现欠佳(如MolFormer排名6.38)。
跨数据集验证的实践启示
在hPPB和溶解度预测中,结合外部数据可提升模型性能(RMSE降低5-10%)。但当内部数据占比超过5%时,外部数据的增益逐渐消失,这一发现为数据采集策略提供了量化指导。
这项研究的意义在于建立了ADMET预测的标准化流程:
研究还揭示了领域特定现象:虽然HLM数据在不同实验室间相关性高(R=0.92),但因分布差异(p~10-39),直接迁移预测效果不佳。这提示未来研究需更关注实验条件标准化,而非单纯追求算法创新。论文提供的开源框架(GitHub: Ro5-ai/bio2d_public)已包含全部清洗后的数据集和特征,有望成为领域新基准。
生物通微信公众号
知名企业招聘