《Wiley Interdisciplinary Reviews-Nanomedicine and Nanobiotechnology》:Modeling Polymeric Drug Release: The Emerging Role of Machine Learning
编辑推荐:
这篇前瞻性综述系统梳理了利用机器学习(ML)建模聚合物药物释放的前沿进展。文章首先回顾了传统机理模型和实证模型的局限,进而重点阐释了各类ML范式(如监督学习、深度学习)及算法(如随机森林、高斯过程回归)在该领域的创新应用。核心在于阐明如何通过数据驱动方法,揭示制剂参数与释放行为间的复杂关系,从而加速更安全、有效聚合物递药系统的理性设计。文章为研究者整合ML工具与传统知识提供了实用路线图。
在过去的半个世纪里,聚合物已成为许多救命疗法开发中的革命性材料。通过设计片剂、颗粒和水凝胶等聚合物制剂,药物的释放得以被定制和控制,从而优化治疗效果。近年来,聚合物系统已从惰性药物载体演变为复杂且具有刺激响应性的基质,同时改善了小分子、生物制剂甚至联合疗法的递送。
然而,准确表征聚合物系统中药物的时间依赖性释放,始终是制剂科学家面临的一项持久挑战。数十年来,研究者依赖于基于物理化学原理的传统数学模型,其重点在于传输现象,通过机理模型和实证模型来解释各种聚合物系统的释放动力学。
传统药物释放模型的基石与局限
传统模型主要分为机理模型和实证模型两大类。机理模型基于扩散、溶胀和降解等基本物理化学参数,例如结合了非克扩散定律、纳维-斯托克斯方程和连续性方程的通用力学模型。这些模型优势在于理论基础坚实、所需数据量少、可解释性强且具有一定普适性。然而,它们通常依赖于简化假设,难以准确拟合复杂或非线性系统,例如聚乳酸-羟基乙酸共聚物(PLGA)和聚己内酯(PCL)等本体降解材料中常见的非线性或多模态释放行为。
相比之下,实证模型(如Korsmeyer-Peppas模型、Weibull模型、逻辑模型和多项式模型)采用数据驱动的曲线拟合,不考虑释放的潜在机制。其优势在于应用简便、适应性强,可用于早期制剂筛选和探索性数据分析。但缺点在于预测外推能力差,难以用于制剂设计或对药物-聚合物系统进行机制性理解。
机器学习:开启药物释放建模的新前沿
近年来,人工智能(AI)和机器学习(ML)的进步为建模策略开辟了新天地。ML不仅用于表征药物释放,还能进行预测,并揭示支配独特动力学特征的关键制剂参数。这种方法可以支持聚合物系统更快、更高效的开发。
早期的ML应用主要涉及人工神经网络(ANN)的构建。ANN是一种类似于生物神经元的计算算法,作为非线性计算系统运行,通过隐藏节点和层来捕获制剂中的非线性、多变量关系。然而,ANN通常依赖大量数据,容易对“噪声”数据过拟合,并且在不同或独特的配方间泛化能力可能较差。
如今,应用于聚合物药物释放建模的ML算法已非常多样,每种都有其独特的优势和适用场景。
- •
高斯过程回归(GPR) 和支持向量机(SVM) 非常适合数据集较小(<1000个释放观测值)且聚合物性质与药物释放关系高度非线性的情况。GPR能提供平滑的预测和不确定性估计,而SVM能处理高维输入并具有较强的抗过拟合能力。
- •
决策树(DT)、随机森林(RF) 和提升集成模型擅长模拟非线性和相互作用的制剂因素。DT提供透明的“如果-那么”规则,可反映释放的机制方面,而RF和提升树通过组合多个不同的学习器来提高准确性。
- •
K最近邻(KNN) 通过参考数据集中最相似的配方来预测药物释放行为,在特征经过良好缩放和整理时易于实现。
- •
线性回归(LR)、LASSO线性回归(LLR) 和遗传编程(GP) 通常因其高可解释性而受到青睐。LR和LLR提供简单性,并通过收缩不重要特征来帮助识别主导的制剂变量。GP可自动演化描述释放曲线的数学表达式,当释放途径不确定或受非线性相互作用影响时,能揭示机制性见解。
评估与解读:确保ML模型的可靠性
为了评估和比较不同预测模型的性能,研究者依赖于一系列关键指标。误差类指标如均方根误差(RMSE)、平均绝对误差(MAE) 和平均绝对百分比误差(MAPE) 直接衡量预测值与观测值之间的差异。拟合优度指标如决定系数(R2) 则表明模型解释了释放行为中多少方差。交叉验证得分和学习曲线分析有助于检测过拟合或欠拟合,评估模型的泛化能力。Akaike信息准则(AIC) 和贝叶斯信息准则(BIC) 在评估性能的同时兼顾模型复杂度,支持在不同架构间进行平衡比较。此外,不确定性量化(UQ) 通过估计模型对其预测的置信度来增强评估,对于数据集稀疏或异质的聚合物-药物系统尤其有价值。
解读ML模型对于推动聚合物系统的药物释放预测至关重要。SHapley加法解释(SHAP) 分析通过量化每个输入特征对个体预测的贡献来解释复杂模型。在预测聚合物药物释放的背景下,SHAP有助于识别哪些制剂参数(如聚合物分子量、载药量或降解速率)对释放曲线影响最大。类似地,局部可解释模型-无关解释(LIME) 通过为单个配方生成简单的局部替代模型来解释输入的小变化如何影响预测。这些工具提高了透明度,并将模型输出与有意义的材料和药物特性联系起来,从而增强了人们对ML衍生见解的信心。
定义ML的数据:平台、聚合物与药物
利用ML能力的关键第一步是整合药物释放数据,并定义与这些观测相关的、可供ML解释以预测预期结果的相关参数。当考虑聚合物药物递送系统设计所涉及的所有元素(即聚合物和药物)时,ML应用可以探索与制剂平台和相应药物释放数据相关的广泛定性和定量参数。
这些参数来源于许多方面(涉及组成和表征),跨越不同的单位、量纲和测量标准,因此仔细的预处理对于协调编译的数据至关重要,以确保模型学习到有意义的关系,而非不一致报告产生的伪影。常见的数据预处理方法包括归一化、标准化、对数/幂变换、独热编码、标签编码、主成分分析(PCA)、滤波/降噪、插补、异常值检测与去除、数据增强以及时间序列对齐或插值。
在预处理描述性特征和释放数据后,研究者通常将参数组织成结构化矩阵,其中每个配方由一组聚合物、药物和实验属性以及任何相关的释放描述符表示。在该领域,这些经过编译和处理的数据集已开发出具有不同预测结果的多种ML架构。研究揭示了通过这些计算方法识别出的常见制剂参数间的相互依赖关系。
聚合物的平台特异性参数
在为机器学习模型定义平台特异性参数时,研究者利用了广泛的特征,以捕捉聚合物药物递送系统(包括片剂、水凝胶、纳米纤维、颗粒和微针)的结构和组成多样性。这些特征通常包含制剂成分,如聚合物类型、药物特性、辅料、表面活性剂或粘合剂,以及实验测量的特性,如片剂压缩力、纤维或颗粒直径、孔隙率和其他物理化学描述符。
例如,有研究评估了几种ML模型,用于预测来自聚脲(PUA)、聚(异氰脲酸酯-聚氨酯)(PIR-PUA)、葡聚糖和葡聚糖醛涂层二氧化硅气凝胶(三维、多孔、纳米结构药物递送系统)的时间敏感性药物释放。他们将5个独特参数(即K指数、孔隙率、表面积、大孔/中孔比、颗粒半径)与时间一起定义为ML输入。这些特征描述了配方之间独特且材料特异性的差异。SHAP评估显示,描述孔径相对分布的大孔/中孔比是预测药物释放曲线最具影响力的特征。
为了在模型训练之前或期间识别哪些参数对预测最具影响力,研究者通常执行特征选择或特征排序方法。例如,统计F检验可用于通过比较特征方差与残差方差,来量化参数与预期响应的线性关联。这种方法要求特征是数值型的,例如平台表征指标。
展望:整合工具,推进设计
总体而言,在满足以下条件时,利用ML工具和能力来表征聚合物药物释放最为成功:(1)可获得稳健且经过适当预处理的数据;(2)基于与系统、制剂和药物释放机制相关的明确定义的特征构建模型;(3)通过解读工具进行评估以验证ML预测。将ML策略与传统机理模型相结合,例如使用ML预测数学方程中涉及的速率常数,已成功地将数据驱动的预测与已建立的释放机制联系起来。这些方法增强了对ML预测的信心,并支持更深入的机制性理解,使ML在聚合物配方的理性设计中更加有用。
通过整合这些工具与已有知识,研究者可以推进下一代基于聚合物的药物递送系统的设计和转化。数据驱动的方法为揭示制剂参数与释放行为之间的复杂关系提供了强大框架,从而指导未来药物递送系统的设计,实现更快、更高效的开发。