药物溶解度是药物和化学研究中的一个重要物理化学性质。除了药物在单一溶剂中的溶解度外,测量、模拟和预测不同温度下药物在二元溶剂系统中的溶解度对于药物开发也非常重要,因为这有助于合理选择最佳溶剂,从而提高溶解度、减少重结晶现象并优化溶解过程[1]。使用有效的技术进行溶解度测量可以为研究热力学稳定性、结晶行为以及在各种热条件下的配方可行性提供必要的实验数据。了解二元溶剂系统中温度依赖的溶解度对于识别潜在的相分离、多态转变和储存稳定性行为也至关重要[2]。计算模拟(例如分子模拟)通过建模溶质-溶剂相互作用来补充实验结果,从而减少了实验测定的时间和成本[3]。预测方法(例如热力学和机器学习模型)可以预测不同溶解介质和热条件下的溶解度趋势。对于溶解度较差的药物来说,这些模型的预测能力尤为宝贵,因为溶剂选择和温度控制对药物的溶解/结晶过程有显著影响[4]。
根据结构和数值分析方法,计算建模方法可以分为不同的类别。根据透明性,模型可以分为三种类型:白盒模型、黑盒模型和灰盒模型。白盒模型(如基于热力学的模型)是完全透明的,而黑盒模型(如深度神经网络)在运行时不揭示其内部逻辑,灰盒模型则介于两者之间[5]。从分析角度来看,模型可以分为线性最小二乘法、非线性最小二乘法和机器学习技术。线性最小二乘法使用线性方程拟合数据,非线性最小二乘法扩展到复杂的非线性模式,但需要迭代优化[6]。机器学习包括一系列算法,如回归、决策树和神经网络,它们可以从数据中学习模式,适用于高维和非线性问题,而这些问题是传统方法可能无法解决的[7]。
人工智能/机器学习方法在药物科学和技术领域得到了广泛应用,从新药发现[8][9][10]、药物开发[11][12][13]、药物递送[14,15]到个性化医疗[14,15]等。随着人工智能的最新进展以及利用大规模数据集的潜力,出现了准确预测的新可能性。开发机器学习方法和神经网络为模拟溶液的复杂行为提供了前所未有的机会,并实现了在大量化学数据中检测潜在模式的新方法。鉴于这些发展,使用先进的数据驱动算法越来越受到研究人员的关注[16]。最近的研究表明,机器学习和深度学习方法在预测化合物溶解度方面具有显著潜力,其性能优于传统模型。例如,崔等人[17]开发了一个基于深度神经网络的模型,该模型经过训练后能够预测超过10,000种不同化合物的水溶性;卡尔波夫等人[18]应用了变换器架构对简化后的分子输入线表示(SMILES)字符串进行规范化;侯等人[19]引入了带有通道和空间注意力的双向LSTM(长短期记忆网络),并使用增强的SMILES数据进行物理性质预测。
除了深度学习之外,还有人报道使用人工神经网络预测超临界CO2和水体系中的药物溶解度[20,21]。对图神经网络、随机森林(RF)和集成方法(LightGBM和XGBoost)的比较分析进一步用于溶解度预测[22][23][24][25][26],展示了机器学习和深度学习方法在处理复杂溶解度挑战方面的多功能性,无论是在工业应用还是研究应用中都表现出准确的性能。
在之前的研究中[27],一些热力学和半理论模型被用来模拟不同温度下唑类药物在水基二元溶剂中的溶解度数据。为了提高溶解度较低的药物(包括溶解度极低的唑类药物)的溶解度,经常会在水溶液中添加共溶剂。唑类药物,如酮康唑、 bifonazole、fenbendazole、flubendazole、econazole、mebendazole、itraconazole、clotrimazole和fluconazole,是一类在临床实践中广泛使用的抗真菌剂[28]。需要注意的是,药物的水溶性差会限制其治疗效果和生物利用度[29]。因此,能够准确预测和优化药物在不同共溶剂中的溶解度不仅是一项学术研究,也是药物开发中的关键步骤。这直接影响有效液体药物递送系统的设计,影响纯化过程中的结晶过程,并最终确保这些药物能够在体内达到预期的治疗浓度[30]。鉴于这类化合物在药学上的重要性,我们选择了它们作为本研究的模型药物。选择这些药物的原因在于它们的广泛应用以及提高这类药物溶解度的必要性[31,32]。例如,在制药公司的研发部门,研究人员可能会专注于唑类化合物的核心来合成新药。显然,合成化合物的溶解度一直是新药发现和开发过程中的一个主要挑战。在这里,我们模拟了多种唑类药物在各种溶剂系统中的行为,虽然这些发现可能不能完全推广到其他药物类别,但对于唑类药物本身来说非常相关。通过了解它们在具有相似性质的溶剂中的行为,可以预测它们的溶解度。
在本文中,我们使用了十四种机器学习和深度学习算法来模拟和预测唑类药物的溶解度,并将其能力与传统模型的能力进行了比较。选择最佳技术有助于确定最有效的数据驱动方法来提高溶解度预测的准确性。这一进展为唑类药物开发领域的实验室和工业应用提供了实用的解决方案。虽然本研究中使用的机器学习算法是众所周知的,但它们在各种溶解度数据转换和验证协议下的相对性能尚未针对混合溶剂环境中的唑类化合物进行过研究。需要指出的是,在大多数类似研究中,讨论和检验的模型数量有限;然而,在本研究中,有十四种不同的模型被应用于数据,并对其预测溶解度的性能进行了评估。
此外,与以往的研究相比,本研究引入了一种方法论框架,严格评估了目标变量(Y、log Y 和 log(?log Y))的三种不同转换对模型效率、数值可靠性和热力学解释性的影响,这可以被视为本研究的另一个创新点。我们的研究另一个区别在于使用平均相对偏差(MRD%)来评估模型性能,而不是常用的均方根误差(RMSE)。MRD% 直接与实验相对标准偏差相关,提供了一个与数据集或单位无关的度量标准,便于不同数据集之间的比较[33]。此外,还采用了两种互补的验证方法(随机训练/测试划分和留一法交叉验证(LOOCV)来区分插值的可靠性和化学描述符空间中的真正外推潜力。本研究结合了透明的混合堆叠集成方法,提供了对预测效率的清晰、基于物理的评估,从而建立了统计方法与控制非理想混合溶剂中溶解度的热力学原理之间的联系。