药物分子水溶性预测新范式:双视角建模与实验验证推动AI精准药物研发

【字体: 时间:2025年09月26日 来源:Advanced Science 14.1

编辑推荐:

  本综述系统构建了迄今最大规模药物水溶性数据集(CASR),通过集成机器学习(ML)与深度学习(DL)算法,开发了高性能预测模型。研究发现,在现有数据规模下,基于统计ML的堆叠模型(Stacking-Lasso)显著优于复杂DL架构,其预测误差(RMSE=0.801-1.029)与实验测定偏差相当。研究进一步通过适用域(AD)分析验证了模型在药物化学空间的泛化能力,并首次对DrugBank数据库中缺失溶解度的候选药物分子进行系统性预测与实验验证(平均绝对误差仅0.436 Log S),为药物发现提供了高可靠性计算工具。

  

数据构建与优化

研究团队整合了多个文献和数据库资源,构建了迄今为止规模最大的水溶性数据集——综合水溶性数据库(CASR-1),包含19,942个药物和类药分子的实验水溶性数据。所有数据均统一转换为以摩尔浓度对数为单位的Log S值,并按照欧洲药典标准划分为7个溶解度等级。与以往研究不同,该数据集特意保留了盐类、无机化合物和含金属元素分子,以确保模型的广泛适用性。通过严格的去重和异常值剔除流程(采用类似Sorkun等人的协议),最终数据集的平均标准差控制在0.31 Log单位以内,显示出高度的数据一致性。值得注意的是,约95%的训练集分子符合Lipinski的“五规则”(分子量<500,计算Log P<5,氢键供体数<5,氢键受体数<10),表明这些分子具有显著的类药性。

机器学习方法与评价体系

研究采用了四种经典的统计机器学习算法作为基础学习器:随机森林(RF)、极限梯度提升(XGBoost)、支持向量机(SVM)和LightGBM。这些模型通过堆叠集成(Stacking)策略进行组合,并选用多元线性回归(MLR)、Lasso和Ridge回归作为元学习器(对于分类任务,则使用逻辑回归(LR))。此外,还引入了自动化机器学习(AutoML)框架进行自动优化。为了全面评估模型性能,回归任务采用了R2、均方根误差(RMSE)、平均绝对百分比偏差(MAPD)以及%Log S ±0.7和%Log S ±1.0等多种指标;分类任务则使用准确率、精确率、召回率、F1分数、ROC曲线下面积(AUC)和平均精度(AP)进行综合评估。

特征工程与重要性分析

研究使用RDKit生成的209个分子描述符来表征化合物的结构和物理化学性质。经过处理(剔除高度相关(|R|>0.9)和无法生成的描述符后,最终保留了159个标准化描述符用于模型构建。通过随机森林算法进行特征重要性分析发现,MolLogP(分子脂水分配系数对数)在回归和分类任务中均为最重要的特征,其在回归中的贡献度接近50%,而在分类中约占8%。其他重要特征包括分子量(MolWt)、BertzCT(分子复杂性指标)、SlogP_VSA5(基于LogP的极性表面积描述符)和HallKierAlpha(分子极性度量)。这些描述符的重要性分布揭示了回归任务更依赖于少数主导特征,而分类任务则需依赖更多特征共同作用。

回归任务:堆叠模型显著领先

通过五折交叉验证进行超参数优化后,所有堆叠模型(Stacking-MLR、Stacking-Ridge、Stacking-Lasso和AutoML)在内部验证和外部测试(SC2-1、SC2-2和DrugBank)中均表现出优于基础模型和深度学习模型(GNN和Transformer-CNN)的预测精度。其中,以Lasso作为元学习器的堆叠模型在所有评估指标(RMSE、R2、%Log S ±0.7、%Log S ±1.0和MAPD)上均表现最佳。实验值与预测值对比图显示,大多数数据点落在Log S ±1.0的范围内,证明了模型的可靠性。SHAP分析进一步确认了MolLogP、MolWt、BertzCT等特征的核心贡献,其与溶解度的正负相关性完全符合化学领域知识(例如,疏水性越高,水溶性越低)。

分类任务:LightGBM脱颖而出

在分类任务中,虽然堆叠模型在内部交叉验证中表现最佳,但LightGBM在外部数据集(SC2-1、SC2-2和DrugBank)上实现了最高准确率,因此被选为最终分类模型。模型对低溶解度化合物(等级‘6’)的分类精度极高,但对高溶解度化合物的分类效果相对较差,这主要源于高溶解度样本的数据稀缺性而非类别不平衡。尝试多种数据重采样技术(如SMOTE)并未带来显著改善,有时甚至导致性能下降。研究还发现,将回归模型的预测值转换为溶解度类别后,其分类准确性低于专门的分类模型,这表明回归和分类模型具有互补性,而非相互替代。

适用域分析与数据库填充

通过t-SNE降维可视化显示,DrugBank中的潜在药物分子与已批准药物在化学描述符空间中形成紧密簇群,表明未来药物仍将集中于这些已知化学空间内。研究采用欧氏距离法和概率密度法定义了模型的适用域(AD),结果显示DrugBank中89.14%(欧氏距离法)和88.50%(概率密度法)的分子落在AD内,证实了模型对类药物分子的强大泛化能力。随后,利用多个堆叠模型(Ensemble-Mean)对DrugBank中缺失溶解度的分子进行预测,并根据AD内状态、模型一致性等条件将预测可靠性分为A(最可靠)至D(最不可靠)四组。最终,79%的分子被归类为A组,15%为B组,体现了预测结果的高可信度。

实验验证:预测与实测高度吻合

为验证模型的实际预测能力,研究团队首次实验测定了10种DrugBank候选药物的水溶性(采用饱和摇瓶法)。结果显示,Stacking-Lasso模型的预测值与实验值高度吻合(RMSE=0.436),与实验室间测量误差(SD=0.5 Log单位)相当。所有实验测定的溶解度等级均与预测等级相同或相邻,充分证明了模型在药物溶解度预测中的高可靠性。与其他广泛使用的工具(如ALOGPS、GSE、ASE和COSMO-RS)相比,本研究开发的模型在所有指标上均显著领先。

结论与展望

本研究通过构建大规模数据集和开发双视角模型,显著提升了药物溶解度的预测准确性。结论表明,在当前数据规模下,传统机器学习集成策略优于深度学习模型;回归与分类模型互为补充;适用域分析是确保预测可靠性的关键。实验验证进一步证实了模型的实际应用价值。尽管深度学习潜力尚未完全释放(需更多高质量数据),但本研究已为药物研发提供了坚实可靠的计算工具,有望加速新药发现进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号