评估机器学习模型在多种温度下对偶溶剂中唑类药物溶解度预测的准确性

《Fluid Phase Equilibria》:Evaluating Machine Learning Models for Accurate Solubility Prediction of Azole Drugs in Binary Solvents at Various Temperatures

【字体: 时间:2026年01月23日 来源:Fluid Phase Equilibria 2.7

编辑推荐:

  抗真菌药物溶解度预测中机器学习模型性能评估,对比14种算法与传统模型,发现CatBoost、混合框架和XGBoost在MRD指标下表现最佳,验证数据转换与验证方法对预测精度的影响,为制药工艺优化提供数据驱动方案。

  
马赫迪·曼苏里(Mahdi Mansoury)| 穆罕默德·阿里·巴达姆奇扎德(Mohammad Ali Badamchizadeh)| 佩曼·鲁扎夫祖恩·巴什西兹(Peyman Roozafzoon Bashsiz)| 西娜·帕克赫萨尔(Sina Pakkhesal)| 埃拉赫·拉希姆普尔(Elaheh Rahimpour)| 阿博尔加塞姆·朱伊班(Abolghasem Jouyban)
伊朗塔布里兹大学电气与计算机工程学院

摘要

药物溶解度是药物研究中的一个关键物理化学性质,它决定了药物的配方、治疗效果和生物利用度。传统的溶解度测定和预测方法通常依赖于劳动密集型的实验方法或计算能力有限的热力学模型。本研究采用了先进的机器学习和深度学习技术来模拟不同温度下基于唑类的抗真菌药物在二元溶剂系统中的溶解度,并将其性能与传统的热力学模型进行了对比。分析了十种唑类药物在各种二元溶剂混合物中的实验溶解度数据。评估的模型包括线性算法、基于树的方法、集成提升技术(XGBoost、LightGBM、CatBoost)、基于核的方法(支持向量回归、高斯过程回归)以及深度学习架构(多层感知器、混合框架)。使用平均相对偏差(MRD)作为主要性能指标来评估这些模型的性能。结果发现,CatBoost(MRD = 6.9%)、混合框架(MRD = 9.2%)和XGBoost(MRD = 12.0%)是表现最好的三个模型。此外,还使用了一组补充指标对它们的性能进行了全面评估,以确保结果的可靠性。研究结果突显了数据驱动算法的卓越预测能力,表明它们在药物开发和溶剂系统优化方面具有巨大潜力。

引言

药物溶解度是药物和化学研究中的一个重要物理化学性质。除了药物在单一溶剂中的溶解度外,测量、模拟和预测不同温度下药物在二元溶剂系统中的溶解度对于药物开发也非常重要,因为这有助于合理选择最佳溶剂,从而提高溶解度、减少重结晶现象并优化溶解过程[1]。使用有效的技术进行溶解度测量可以为研究热力学稳定性、结晶行为以及在各种热条件下的配方可行性提供必要的实验数据。了解二元溶剂系统中温度依赖的溶解度对于识别潜在的相分离、多态转变和储存稳定性行为也至关重要[2]。计算模拟(例如分子模拟)通过建模溶质-溶剂相互作用来补充实验结果,从而减少了实验测定的时间和成本[3]。预测方法(例如热力学和机器学习模型)可以预测不同溶解介质和热条件下的溶解度趋势。对于溶解度较差的药物来说,这些模型的预测能力尤为宝贵,因为溶剂选择和温度控制对药物的溶解/结晶过程有显著影响[4]。
根据结构和数值分析方法,计算建模方法可以分为不同的类别。根据透明性,模型可以分为三种类型:白盒模型、黑盒模型和灰盒模型。白盒模型(如基于热力学的模型)是完全透明的,而黑盒模型(如深度神经网络)在运行时不揭示其内部逻辑,灰盒模型则介于两者之间[5]。从分析角度来看,模型可以分为线性最小二乘法、非线性最小二乘法和机器学习技术。线性最小二乘法使用线性方程拟合数据,非线性最小二乘法扩展到复杂的非线性模式,但需要迭代优化[6]。机器学习包括一系列算法,如回归、决策树和神经网络,它们可以从数据中学习模式,适用于高维和非线性问题,而这些问题是传统方法可能无法解决的[7]。
人工智能/机器学习方法在药物科学和技术领域得到了广泛应用,从新药发现[8][9][10]、药物开发[11][12][13]、药物递送[14,15]到个性化医疗[14,15]等。随着人工智能的最新进展以及利用大规模数据集的潜力,出现了准确预测的新可能性。开发机器学习方法和神经网络为模拟溶液的复杂行为提供了前所未有的机会,并实现了在大量化学数据中检测潜在模式的新方法。鉴于这些发展,使用先进的数据驱动算法越来越受到研究人员的关注[16]。最近的研究表明,机器学习和深度学习方法在预测化合物溶解度方面具有显著潜力,其性能优于传统模型。例如,崔等人[17]开发了一个基于深度神经网络的模型,该模型经过训练后能够预测超过10,000种不同化合物的水溶性;卡尔波夫等人[18]应用了变换器架构对简化后的分子输入线表示(SMILES)字符串进行规范化;侯等人[19]引入了带有通道和空间注意力的双向LSTM(长短期记忆网络),并使用增强的SMILES数据进行物理性质预测。
除了深度学习之外,还有人报道使用人工神经网络预测超临界CO2和水体系中的药物溶解度[20,21]。对图神经网络、随机森林(RF)和集成方法(LightGBM和XGBoost)的比较分析进一步用于溶解度预测[22][23][24][25][26],展示了机器学习和深度学习方法在处理复杂溶解度挑战方面的多功能性,无论是在工业应用还是研究应用中都表现出准确的性能。
在之前的研究中[27],一些热力学和半理论模型被用来模拟不同温度下唑类药物在水基二元溶剂中的溶解度数据。为了提高溶解度较低的药物(包括溶解度极低的唑类药物)的溶解度,经常会在水溶液中添加共溶剂。唑类药物,如酮康唑、 bifonazole、fenbendazole、flubendazole、econazole、mebendazole、itraconazole、clotrimazole和fluconazole,是一类在临床实践中广泛使用的抗真菌剂[28]。需要注意的是,药物的水溶性差会限制其治疗效果和生物利用度[29]。因此,能够准确预测和优化药物在不同共溶剂中的溶解度不仅是一项学术研究,也是药物开发中的关键步骤。这直接影响有效液体药物递送系统的设计,影响纯化过程中的结晶过程,并最终确保这些药物能够在体内达到预期的治疗浓度[30]。鉴于这类化合物在药学上的重要性,我们选择了它们作为本研究的模型药物。选择这些药物的原因在于它们的广泛应用以及提高这类药物溶解度的必要性[31,32]。例如,在制药公司的研发部门,研究人员可能会专注于唑类化合物的核心来合成新药。显然,合成化合物的溶解度一直是新药发现和开发过程中的一个主要挑战。在这里,我们模拟了多种唑类药物在各种溶剂系统中的行为,虽然这些发现可能不能完全推广到其他药物类别,但对于唑类药物本身来说非常相关。通过了解它们在具有相似性质的溶剂中的行为,可以预测它们的溶解度。
在本文中,我们使用了十四种机器学习和深度学习算法来模拟和预测唑类药物的溶解度,并将其能力与传统模型的能力进行了比较。选择最佳技术有助于确定最有效的数据驱动方法来提高溶解度预测的准确性。这一进展为唑类药物开发领域的实验室和工业应用提供了实用的解决方案。虽然本研究中使用的机器学习算法是众所周知的,但它们在各种溶解度数据转换和验证协议下的相对性能尚未针对混合溶剂环境中的唑类化合物进行过研究。需要指出的是,在大多数类似研究中,讨论和检验的模型数量有限;然而,在本研究中,有十四种不同的模型被应用于数据,并对其预测溶解度的性能进行了评估。
此外,与以往的研究相比,本研究引入了一种方法论框架,严格评估了目标变量(Y、log Y 和 log(?log Y))的三种不同转换对模型效率、数值可靠性和热力学解释性的影响,这可以被视为本研究的另一个创新点。我们的研究另一个区别在于使用平均相对偏差(MRD%)来评估模型性能,而不是常用的均方根误差(RMSE)。MRD% 直接与实验相对标准偏差相关,提供了一个与数据集或单位无关的度量标准,便于不同数据集之间的比较[33]。此外,还采用了两种互补的验证方法(随机训练/测试划分和留一法交叉验证(LOOCV)来区分插值的可靠性和化学描述符空间中的真正外推潜力。本研究结合了透明的混合堆叠集成方法,提供了对预测效率的清晰、基于物理的评估,从而建立了统计方法与控制非理想混合溶剂中溶解度的热力学原理之间的联系。

数据收集

本研究使用了先前发表的研究中获得的基于唑类的药物(包括酮康唑、econazole、bifonazole、mebendazole、fenbendazole、flubendazole、itraconazole、clotrimazole、miconazole 和 fluconazole)在39组二元系统中的实验溶解度数据,这些数据涵盖了恒定和/或不同的温度(总数据点数为2830个)[34][35][36][37][38][39][40][41][42][43][44][45][46][47][48][49][50][51][52]。有关更多细节……

研究药物的性质和溶解特性

本研究使用的数据来自之前发表的十种唑类抗真菌剂的数据:酮康唑、econazole、bifonazole、mebendazole、fenbendazole、flubendazole、itraconazole、clotrimazole、miconazole 和 fluconazole(见补充材料中的表S1)。这些药物的分子结构包含咪唑环或三唑环,这是决定其抗真菌特性的药效团。这些药物在各种溶剂中的溶解度数据……

结论

本研究对14种机器学习算法进行了全面、系统的评估,这些算法用于模拟10种唑类药物在不同温度下水基二元溶剂混合物中的溶解度,并将其性能与传统的热力学模型进行了对比。通过探索目标变量的三种不同表示形式(Y、log Y 和 log(?log Y)),研究阐明了数据缩放对数值稳定性、模型性能和整体预测准确性的显著影响。

致谢

不适用。

作者贡献

马赫迪·曼苏里(Mahdi Mansoury): 数据整理、方法论、正式分析
穆罕默德·阿里·巴达姆奇扎德(Mohammad Ali Badamchizadeh): 概念构思、监督、审稿与编辑
佩曼·鲁扎夫祖恩·巴什西兹(Peyman Roozafzoon Bashsiz): 初稿撰写、可视化、审稿与编辑
西娜·帕克赫萨尔(Sina Pakkhesal): 初稿撰写、可视化
埃拉赫·拉希姆普尔(Elaheh Rahimpour): 初稿撰写、项目管理、资源协调
阿博尔加塞姆·朱伊班(Abolghasem Jouyban): 概念构思、数据整理、撰写-审稿与编辑、项目管理、资源协调、监督

资助

本研究部分得到了塔布里兹医科大学药物分析研究中心(伊朗塔布里兹)的支持,资助编号为76902。需要声明的是,资助方在概念构思、设计、数据收集、分析、发表决定或手稿准备过程中没有发挥任何作用。

数据可用性

本研究使用和/或分析的数据集可向相应作者提出合理请求后获取。

伦理批准和参与同意

不适用。

出版同意

不适用。

作者贡献声明

马赫迪·曼苏里(Mahdi Mansoury): 方法论、正式分析、数据整理
穆罕默德·阿里·巴达姆奇扎德(Mohammad Ali Badamchizadeh): 撰写-审稿与编辑、监督、概念构思
佩曼·鲁扎夫祖恩·巴什西兹(Peyman Roozafzoon Bashsiz): 撰写-审稿与编辑、初稿撰写、可视化
西娜·帕克赫萨尔(Sina Pakkhesal): 初稿撰写、可视化
埃拉赫·拉希姆普尔(Elaheh Rahimpour): 初稿撰写、资源协调、项目管理
阿博尔加塞姆·朱伊班(Abolghasem Jouyban): 撰写-审稿与编辑、监督、资源协调、项目管理、数据整理
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号