编辑推荐:
为解决离子液体(ILs)和低共熔溶剂(DESs)等定制溶剂的 Kamlet-Taft 参数(α、β、π?)实验测定难题,研究人员开发两种机器学习(ML)算法,利用量子化学衍生特征预测参数。结果显示模型准确,还探讨参数与溶解木质素、CO?能力的关系,为设计高效溶剂提供指导。
在绿色化学与可持续发展的浪潮中,溶剂的极性调控成为工业应用的关键挑战。传统有机溶剂的毒性与挥发性对环境造成巨大负担,而离子液体(ILs)和低共熔溶剂(DESs)等新型 “定制溶剂” 因可设计性强、环境友好等特性崭露头角。然而,这些溶剂的极性表征依赖 Kamlet-Taft 参数(包括氢键酸度 α、碱度 β 和偶极极化率 π?),但 ILs 的离子对组合与 DESs 的氢键供体 / 受体对理论上无限多,实验测定参数耗时费力且成本高昂。如何快速准确预测这些参数,成为推动其在生物质转化、碳捕获等领域应用的核心瓶颈。
为突破这一困境,来自相关研究机构的科研团队在《Green Chemical Engineering》发表研究成果,聚焦于利用机器学习(ML)技术构建高效的 Kamlet-Taft 参数预测模型。研究旨在通过数据驱动的方法,解析溶剂分子结构与极性参数的内在关联,为定制溶剂的定向设计提供理论支撑。
关键技术方法
研究构建了包含 293 个有机溶剂、452 个 ILs 和 328 个 DESs 的 Kamlet-Taft 参数数据集,覆盖广泛的化学空间。采用导体样筛选模型(COSMO-RS)计算分子描述符,包括总相互作用能(total IE)、失配能(misfit energy)、氢键能(HB energy)、范德华能(vdW energy)、氢键受体矩(HB acceptor moments)、氢键供体矩(HB donor moments)和分子表面积(molecular surface area)。基于这些特征,开发了前馈神经网络(FFNN)模型,并通过 SHapley 加性解释(SHAP)分析揭示特征重要性。
研究结果
4.1 有机溶剂的化学空间分析
通过 t - 分布随机邻域嵌入(t-SNE)和 k-means 聚类分析,发现研究数据集覆盖的有机溶剂结构多样性显著高于文献报道,包含 6 个聚类的 290 余个样本,为模型训练提供了丰富的化学特征。
4.2 有机溶剂 Kamlet-Taft 参数的 ML 模型
对比多元线性回归(MLR)和 FFNN 模型发现,FFNN 模型对 α、β、π?的预测表现更优,测试集 R2 达 0.980-0.988,均方根误差(RMSE)仅 0.034-0.047。SHAP 分析表明,氢键供体矩、氢键能等是影响 α 的关键因素,而氢键受体矩对 β 的贡献最大,失配能和分子表面积则显著影响 π?。
4.3 定制溶剂(ILs 和 DESs)的 ML 模型
针对 ILs 和 DESs 分别开发模型,FFNN 模型在 ILs 测试集中的 R2 为 0.951(α)、0.983(β)、0.928(π?),在 DESs 中 R2 高达 0.983(α)、0.977(β)、0.995(π?)。化学空间分析显示,研究数据集的 ILs 和 DESs 结构覆盖范围远大于既往研究,模型通用性更强。SHAP 分析揭示,ILs 的 α 与氢键供体矩正相关,β 与氢键受体矩正相关;DESs 的 β 受氢键受体矩和范德华能主导,π?则与失配能和分子表面积密切相关。
4.4 与文献模型的对比
与传统 MLR 和 QSPR 模型相比,FFNN 模型在预测精度和数据覆盖范围上显著提升。例如,文献中有机溶剂 β 的 R2 为 0.63-0.919,而本研究达 0.986;ILs 的 π?预测在文献中 R2 仅 0.28-0.54,本研究提升至 0.928,凸显了深度学习在复杂体系中的优势。
4.5 Kamlet-Taft 参数在木质素和 CO?溶解中的应用
研究发现,溶剂的 β 值与木质素溶解度呈正相关:有机溶剂中高 β 的胺类溶剂促进脱木素,ILs 中阴离子烷基链延长导致 β 升高并增强木质素溶解,DESs 的 β-α 值与木质素溶解度线性相关。在 CO?溶解方面,DESs 的 β 与溶解度正相关,α 负相关,β-α 值可作为溶剂碱性的量化指标,指导 CO?捕获溶剂设计。
结论与意义
本研究通过整合量子化学描述符与机器学习,构建了首个涵盖有机溶剂、ILs 和 DESs 的 Kamlet-Taft 参数通用预测模型,突破了传统实验方法的局限。模型不仅实现了高准确度预测(R2>0.95),还通过 SHAP 分析揭示了氢键相互作用、分子表面积等关键影响因素。在应用层面,研究首次系统阐明了溶剂酸碱性(α/β)与木质素、CO?溶解能力的关联机制,为循环生物经济中高效溶剂的定向设计提供了 “数据 - 模型 - 应用” 的完整框架。该成果不仅推动了绿色溶剂在生物质转化和碳管理领域的实际应用,也为复杂化学体系的性质预测开辟了新的技术路径,展现了机器学习在化学工程与可持续发展中的巨大潜力。