
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于先进计算智能技术的抗癌及辅助药物在超临界CO2中溶解潜力探索及其对绿色制药工艺的推动
【字体: 大 中 小 】 时间:2025年09月21日 来源:Journal of CO2 Utilization 8.4
编辑推荐:
本研究针对药物开发中活性药物成分水溶性差、传统实验测量成本高且技术难度大的挑战,利用机器学习(ML)框架预测22种固体药物在超临界CO2(SC-CO2)中的溶解度。研究通过评估15种ML算法,发现CNN、CatBoost和Gaussian Process Regression模型预测精度最高,并结合SHAP分析揭示分子量(Mw)、压力(P)和温度(T)等关键特征的影响。该研究为药物纳米化、绿色分离技术和CO2可持续利用提供了高效、可靠的 computational intelligence 解决方案,显著加速了药物制剂设计和工艺优化。
在药物研发领域中,超过40%的新药候选化合物因水溶性极差而导致溶解缓慢、吸收效率低和口服生物利用度不足,这一问题在抗癌药物及其辅助治疗药物中尤为突出。为提高生物利用度,常采用微粒化(micronization)和纳米化(nanonization)等技术增大药物比表面积,但传统方法如研磨和喷雾干燥往往需使用有机溶剂或在苛刻条件下进行,可能导致药物降解或残留杂质。
超临界二氧化碳(SC-CO2)作为一种绿色、无毒且成本低廉的溶剂,在药物纳米化和溶解度增强方面展现出巨大潜力。其兼具液体密度和气体扩散性的特性,使其能够在不使用有机溶剂的条件下生成粒径分布均匀的药物颗粒或纳米晶体。然而,SC-CO2中药物溶解度的实验测量在高压环境下既技术要求高又成本昂贵,因此开发预测模型成为迫切需求。
以往研究多采用理论驱动模型,如状态方程(EoSs)、活度系数法和半经验模型,但这些方法往往依赖精确的物理特性数据、复杂的混合规则或大量拟合参数,且难以处理非线性关系及不完整数据集。近年来,机器学习(ML)方法因其能够捕捉复杂非线性关系、对噪声数据具有鲁棒性、计算成本较低且抗过拟合能力强,逐渐成为溶解度预测的有效工具。
在此背景下,Reza Soleimani、Mandana Moradi Kouchi、Ziba Behtouei、Zahra Ghasemi和Alireza Baghban合作,在《Journal of CO2 Utilization》上发表了一项研究,致力于利用先进计算智能技术探索抗癌及辅助药物在SC-CO2中的溶解潜力。该研究汇集了744个实验数据点,涵盖22种药物,包括5-氟尿嘧啶(5-Fluorouracil)、替莫唑胺(Temozolomide)、卡培他滨(Capecitabine)、伊马替尼甲磺酸盐(Imatinib Mesylate)等抗癌药物及支持性药物。每个数据点包括分子量(Mw)、熔点(Mp)、压力(P)、温度(T)和溶解度值(g/L)等关键特征。
研究采用了多种机器学习技术,包括CNN(卷积神经网络)、KNN(K近邻)、ANN(人工神经网络)、Gaussian Process Regression(高斯过程回归)、XGBoost、CatBoost、LightGBM、Gradient Boosting、Elastic Net、Ridge Regression、SVM(支持向量机)、Lasso Regression、Linear Regression、Decision Tree和Random Forest等15种算法。通过5折交叉验证对模型进行训练和超参数优化,使用R2(决定系数)、MSE(均方误差)和MRD%(平均相对偏差)等指标评估性能,并应用SHAP(SHapley Additive exPlanations)分析对最佳模型进行解释,以揭示特征重要性。
主要技术方法方面,作者从文献中手工收集了22种固体药物在SC-CO2中的溶解度实验数据(来源包括多个已发表研究,涵盖药物如5-氟尿嘧啶、替莫唑胺、地西他滨、布苏凡、氟他胺、阿扎硫嘌呤、来曲唑、阿那曲唑、依西美坦、卡培他滨、他莫昔芬、非那雄胺、甲地孕酮乙酸酯、坦索罗辛、水飞蓟素、杜他雄胺、舒尼替尼马来酸盐、阿瑞匹坦、伊马替尼甲磺酸盐、索拉非尼 Tosylate、多西他赛和紫杉醇),共744个数据点。使用Monte Carlo Outlier Detection (MCOD) 算法进行数据质量评估和异常值检测。特征选择基于四个物理化学参数:熔点(K)、分子量(g/mol)、压力(bar)和温度(K)。数据集按70%训练、15%验证和15%测试划分,采用5折交叉验证优化超参数,最终用测试集评估泛化能力。性能最佳模型通过SHAP分析进行可解释性探究。
该部分简要回顾了所采用的机器学习技术。CNN(卷积神经网络)专为网格状数据设计,通过卷积层、池化层和全连接层提取空间特征层次结构,使用反向传播进行训练。KNN(K近邻)是一种基于实例的非参数方法,通过距离度量找到最近邻样本进行预测。ANN(人工神经网络)通过神经元层处理非线性关系,利用反向传播和梯度下降优化权重。Gaussian Process Regression(高斯过程回归)是一种贝叶斯非参数模型,提供预测及其不确定性。XGBoost、CatBoost和LightGBM均为梯度提升树算法的优化实现,分别注重系统优化、类别特征处理和计算效率。Gradient Boosting(梯度提升)通过逐步添加弱学习器(决策树)来最小化损失函数。Elastic Net、Ridge Regression和Lasso Regression是线性回归的正则化变体,结合L1和L2惩罚项以防止过拟合。SVM(支持向量机)通过最大化边际间隔实现分类或回归。Linear Regression(线性回归)是最基础的线性模型。Decision Tree(决策树)通过递归分区特征空间进行预测。Random Forest(随机森林)则通过集成多棵决策树来提高泛化能力。
数据集包含22种药物的实验溶解度数据,分子量范围130.08–853.91 g/mol,熔点范围354.65–557.15 K,压力范围80–400 bar,温度范围308–348.2 K,溶解度范围0.0005–19.76 g/L。通过散点矩阵图和Pearson相关矩阵分析特征间关系,发现压力与溶解度呈中等正相关(0.38),温度弱正相关(0.16),分子量弱负相关(-0.12),熔点弱正相关(0.11)。采用MCOD算法进行异常值检测,数据分布显示右偏特性,包含低溶解度主体和高溶解度离群点,为模型训练提供全面数据基础。
所有模型在Python 3.10中开发,数据集按70%训练、15%验证和15%测试随机划分。使用5折交叉验证优化超参数,以R2和MSE为评价指标。优化后模型在完整训练集上重训练,用验证集确认性能,最终通过测试集评估泛化能力。Adam优化器用于ANN和CNN,其他模型采用网格搜索调参。
模型评估显示,CNN测试集R2最高(0.9839),MSE最低(0.0800),性能最优。CatBoost(R2=0.9795, MSE=0.1018)、Gradient Boosting和Random Forest(R2=0.9750, MSE=0.1245)、Gaussian Process(R2=0.9751, MSE=0.1239)和ANN(R2=0.9722, MSE=0.1386)也表现良好。XGBoost虽训练集表现优异(R2=0.9993),但验证集性能下降(R2=0.4829),显示过拟合。LightGBM和KNN表现中等,SVM和传统线性模型(Linear Regression、Ridge、Lasso、Elastic Net)性能较差,R2仅0.1603–0.1676,误差较高。Decision Tree训练集完美拟合但验证集泛化差。残差密度图、小提琴图和预测分布图均确认CNN、CatBoost等模型误差小、分布紧密,预测可靠。
通过实际值与预测值对比图、相对误差散点图和频率分布图可视化模型性能。CNN、CatBoost、Gaussian Process和ANN的预测值与实际值高度重合,误差集中 near zero,且训练、验证、测试集分布一致,显示强泛化能力。其他模型则出现显著偏差或误差分散。
对最佳模型CNN进行SHAP分析,显示分子量(Mw)是最重要特征,对溶解度有负向影响(较高分子量降低溶解度),压力(P)和温度(T)呈正向影响(升高压力和温度提高溶解度),熔点(Mp)影响较弱。这符合超临界流体行为的基本物理化学原理,证实了模型的可解释性和可靠性。
该研究成功开发了一个综合机器学习框架,用于准确预测固体药物在SC-CO2中的溶解度。CNN、CatBoost和Gaussian Process Regression等模型表现出色,能够高效捕捉分子与过程变量间的复杂非线性关系。SHAP分析进一步揭示了特征的作用机制,为药物制剂设计、纯化和递送提供了重要见解。该研究减少了高压实验的需求,加速了药物候选筛选和工艺优化,支持了SC-CO2在绿色制药和可持续工业中的广泛应用。未来工作可扩展数据集、整合实时传感数据,并开发混合AI-热力学模型,以进一步提升泛化能力和实际应用价值。
生物通微信公众号
知名企业招聘