基于LSTM的预测方法:利用ADME(吸收、分布、代谢和排泄)及理化性质,预测静脉注射小分子药物在人体内的药代动力学(PK)特征及相关参数

《CPT: Pharmacometrics & Systems Pharmacology》:LSTM-Based Prediction of Human PK Profiles and Parameters for Intravenous Small Molecule Drugs Using ADME and Physicochemical Properties

【字体: 时间:2025年10月30日 来源:CPT: Pharmacometrics & Systems Pharmacology 3

编辑推荐:

  准确预测人类药代动力学(PK)是药物开发成功的关键。本研究开发了基于LSTM的机器学习框架,利用ADMEP描述符和剂量信息预测IV给药后的C-t曲线。在40种训练药物和18种测试药物的验证中,模型R2达0.75,Cmax、清除率和分布体积的预测误差在2倍范围内分别为77.8%、55.6%和61.1%,与现有方法相当。该框架可减少早期药物开发中的动物实验依赖,为虚拟化合物筛选提供实用工具。

  在药物研发的早期阶段,准确预测化合物在人体内的药代动力学(PK)特性是确保药物成功进入临床试验的关键因素之一。药代动力学参数,如最大血药浓度(Cmax)、清除率(CL)、分布容积(Vss)等,不仅决定了药物在体内的行为,也直接影响其安全性和有效性。然而,传统的PK预测方法,例如体外到体内外推(IVIVE)和基于生理的药代动力学模型(PBPK),通常需要大量的实验数据和复杂的参数校准过程,这些过程既耗时又昂贵,通常只能在药物研发的后期阶段进行。此外,制药行业和监管机构如美国食品药品监督管理局(FDA)正在推动替代性测试方法,以减少对动物实验的依赖并提升动物福利。因此,机器学习(ML)方法因其快速、数据驱动的特性,在药物早期设计和筛选阶段获得了越来越多的关注。

目前,许多ML方法在预测ADME(吸收、分布、代谢、排泄)和理化性质(ADMEP描述符)方面表现出了较高的准确性。例如,一些研究利用随机森林(RF)、极端梯度提升(XGBoost)和支持向量回归(SVR)等算法,成功预测了药物在体内的浓度-时间(C-t)曲线。然而,这些模型大多依赖于大量化合物的数据集,收集高质量的C-t数据是一项繁琐的任务。同时,大多数研究仍然基于动物实验数据,限制了其在人体中的可转换性和临床适用性。因此,如何在有限的数据条件下,构建一个能够准确预测人体内C-t曲线的模型,成为当前药物研发中的一个关键挑战。

针对这一问题,本研究提出了一种基于长短期记忆网络(LSTM)的机器学习框架,专门用于预测人体内静脉注射(IV)药物的C-t曲线。LSTM是一种递归神经网络(RNN)的变种,能够保留长期依赖关系,并有效捕捉时间序列中的动态变化。这种特性使其特别适合于时间序列预测任务,如药代动力学-药效学(PK-PD)关系的建模。本研究中,我们利用了由ADMETlab 3.0生成的ADMEP描述符和剂量信息作为输入,并使用了40种药物进行训练,18种药物进行测试。这些药物的C-t数据是通过已发表的PK模型进行模拟获得的。结果显示,该模型在所有C-t曲线上的预测相关系数(R2)达到了0.75,其中Cmax的预测精度达到77.8%,清除率和分布容积的预测精度分别为55.6%和61.1%,均在2倍误差范围内,表明其预测性能与已有ML方法相当。

为了提高模型的稳定性和泛化能力,我们还进行了特征选择,采用SHAP(SHapley Additive exPlanations)分析来评估各个ADMEP描述符对模型预测的贡献度。通过计算特征的累积重要性,我们确定了最合适的特征子集,以确保模型在有限的数据条件下依然能够保持较高的预测精度。此外,模型的构建采用了分阶段的策略,包括一个用于估计初始浓度(Cmax)的初始模型(IM)和两个用于预测完整C-t曲线的组合模型(CM1和CM2)。其中,CM1和CM2分别使用了不同的滑动窗口大小,以增强模型对时间序列数据的处理能力。

在模型评估方面,我们比较了本研究中的LSTM框架与已发表的其他方法,包括基于ML、PBPK和机制模型的方法。结果显示,尽管本研究的数据集相对较小,但我们的模型在多个关键的PK终点上表现优异,尤其是在C-t曲线、Cmax和平均停留时间(MRT)的预测上,达到了较高的准确度。对于清除率(CL)和分布容积(Vss),虽然R2值较低,但中位数的观察值与预测值的比值接近1,表明模型在这些参数的预测上具有较好的一致性。此外,通过t-SNE(t-distributed stochastic neighbor embedding)对化合物进行聚类分析,我们发现具有相似ADME和理化性质的化合物在预测性能上也表现出一致性,这进一步验证了模型的泛化能力。

本研究的成果表明,基于LSTM的模型在预测人体内静脉注射药物的C-t曲线方面具有重要的应用潜力。它不仅可以作为早期药物PK预测的实用工具,还能减少对动物实验的依赖,从而提高药物开发的效率和伦理水平。尽管目前模型在低浓度和终端阶段的预测可能存在一定的偏差,这可能与模型的自回归结构有关,即每个时间点的预测依赖于前一个时间点的输出,从而导致误差的累积。然而,通过改进损失函数,如引入自适应权重或加权均方误差(MSE),可以进一步提高模型对低浓度数据的敏感性,以提升整体预测性能。

此外,本研究的模型还具有良好的可解释性,其预测结果可以通过ADMEP描述符进行理解,从而帮助研究人员更好地理解药物在体内的行为模式。通过将药物的结构信息转化为低维的ADMEP描述符,模型能够更直接地捕捉与药代动力学相关的特征,而不必处理复杂的化学结构数据。这不仅降低了计算成本,也提高了模型的灵活性和实用性。在未来的药物研发中,这种基于ADMEP描述符和剂量信息的模型有望成为一种重要的预测工具,特别是在需要快速筛选潜在候选药物的早期阶段。

综上所述,本研究提出了一种新的LSTM框架,能够在有限的数据条件下,准确预测人体内静脉注射药物的C-t曲线。该模型通过结合ADMEP描述符和剂量信息,为药物开发提供了一种数据驱动且高效的解决方案。其预测性能与已有的ML和PBPK方法相当,同时减少了对大量实验数据的依赖,降低了模型的复杂性和计算成本。未来的研究可以进一步优化模型,以提高其在低浓度和终端阶段的预测能力,并探索其在其他给药途径(如口服给药)中的应用潜力。通过结合新兴的ML方法,如神经微分方程(NODEs)和PKsciML框架,有望进一步提升药物早期预测的准确性和实用性,为药物研发提供更全面的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号