基于数据的推荐方法:用于溶液相紫外/可见光吸收能量预测中范围分离混合泛函的最优调优方案

《Journal of Chemical Theory and Computation》:Data-Driven Recommendation of Optimal Tuning Scheme for Range-Separated Hybrid Functionals in Solution-Phase UV/Vis Absorption Energy Prediction

【字体: 时间:2025年10月24日 来源:Journal of Chemical Theory and Computation 5.5

编辑推荐:

  本文通过大规模数据集(937种中性有机分子)评估了三种γ调优方法(GPγT、PVγT、SVγT)在溶液相紫外-可见吸收光谱预测中的性能。研究发现SVγT因更小的γ值(平均0.06 a0–1)能最佳模拟溶剂极化效应,其MAE为0.35 eV,显著优于默认γ(MAE=0.67 eV)和GPγT(MAE=0.56 eV)。SVγT通过仅调整电子极化响应,有效避免了核极化过度松弛导致的误差,且与基于屏蔽数学模型的SRSH-PCM方法表现相当但计算成本更低。研究还验证了SVγT在单粒子图景(R2>0.90)和1/(εR)渐近行为上的物理合理性,证明其是最适合高吞吐计算的γ调优方案。

  在研究有机分子的激发态性质时,时间依赖密度泛函理论(TDDFT)结合范围分离混合(RSH)泛函和经过调整的范围分离参数γ,为高通量预测激发态性质提供了一种计算成本较低的方法。然而,在考虑溶剂效应时,特别是使用隐式溶剂模型如极化连续模型(PCM)的情况下,γ的调整方法尚未达成共识。为了解决这一问题,本研究创建了一个包含937个分子的多样化数据集,这些分子具有实验测定的溶液相紫外-可见吸收光谱。对这三种γ调整方法(气体相γ调整GPγT、部分垂直γ调整PVγT和严格垂直γ调整SVγT)在ωPBEh泛函下的表现进行了评估。此外,还对优化后的范围分离混合泛函与PCM(SRSH-PCM)以及溶剂介导调整(sol-med-OT)进行了额外的基准测试。研究结果表明,PVγT和SVγT获得的最优γ值显著小于GPγT。这种趋势在数据集中的所有分子中都保持一致,并且我们解释了这一现象的起源。使用PVγT和SVγT调整后的γ值进行TDDFT计算,且采用默认的全局Fock交换分数,其性能优于使用GPγT调整或默认γ值的计算,且在计算成本上略胜一筹。此外,我们发现SVγT获得的较小γ值能够再现溶液相中预期的1/(εR)渐近行为,从而实现对溶液相电荷转移(CT)激发的准确预测,与SRSH-PCM中编码的屏蔽渐近行为一致。这些结果表明,从数据驱动的角度来看,SVγT是使用ωPBEh泛函进行高通量紫外-可见吸收光谱计算的最佳方案。

### 1. 引言

研究有机分子的电子激发态性质在许多化学应用中至关重要,例如光催化剂、光敏剂、光动力疗法和化学染料。快速且准确地预测溶液相激发态分子性质,可以实现高通量筛选和机器学习数据集的生成,从而加速这些领域功能分子的发现。尽管高通量筛选在基态性质方面已经取得了显著进展,无论是无机还是有机化学系统,但在激发态性质的可靠大规模计算方面仍然面临计算成本和准确性的挑战。此外,用于机器学习训练集的基态数据集已有多项研究,而激发态数据集则相对较少。

为了实现大规模计算,一个实用且经济的方法是采用TDDFT计算,在Kohn-Sham密度泛函理论(DFT)框架下进行。然而,TDDFT的准确性高度依赖于交换-相关泛函的选择。大多数通用梯度近似(GGA)泛函和混合GGA泛函都存在不同程度的离域误差(DE),这种误差体现在偏离Janak定理预测的分段线性分数电荷行为,从而导致基态和光学间隙的错误估计。此外,它们错误的渐近行为会导致电离势(IP)和电荷转移(CT)激发能的严重低估。常见的解决方案是使用范围分离混合(RSH)泛函,这些泛函通过Ewald风格的划分强制正确的渐近行为。

### 2. 方法

#### 2.1 数据集的构建

本研究的实验数据是从Bread等人编译的数据库中提取的,该数据库包含8487条记录,源自402,034篇发表的文章。我们对这些数据进行了后处理,以确保数据集的质量。目标是针对溶液相的γ调整,因此我们首先删除了没有溶剂信息的记录,保留了1446条记录。随后,我们移除了含有少于5个重原子的小分子,因为这些物质通常对应溶剂、盐和小分子反应物,而不是典型的光活性分子。此外,由于ChemDataExtractor算法在处理含有少于5个重原子的SMILES字符串时容易出现数据录入错误,因此必须删除这些记录以确保数据集的质量。尽管一些离子型溶质在化学上也有研究价值,但由于隐式模型难以准确捕捉其较强的溶剂效应,我们选择不考虑它们。

最终,我们通过人工筛选,剔除了60条错误记录并修正了387条吸收波长,形成了一个包含937个不同溶质的精炼数据集。这些溶质分布在9种不同的溶剂中,涵盖了广泛的研究对象,如荧光染料、光电材料和有机光氧化还原催化剂。

#### 2.2 DFT计算

所有中性、阳离子和阴离子物种的几何优化和基态能量计算均在DFT水平上进行,使用RSH泛函ωPBEh。默认的α、β和γ值分别为0.2、0.8和0.2 a0–1,其中a0–1表示波尔长度的倒数。默认的ωPBEh确保LR Fock交换分数α + β为1,这与CAM-B3LYP等其他RSH泛函不同。所有元素均使用6-31G*基组,除了Br和I,它们使用LANL2DZ有效核心势。

几何优化在平衡的PCM下进行,使用GPU加速的量子化学软件TeraChem完成。对于TDDFT计算,使用了Tamm-Dancoff近似(TDA),因其在预测垂直激发能方面准确性较高,且计算成本较低。此外,我们还对SVγT进行了全TDDFT计算,以定量评估TDA对结果的影响。

#### 2.3 γ调整过程

γ调整过程的目标是找到最优的γ值,以最小化损失函数J2(γ)。我们首先计算了γ从0.00 a0–1到0.60 a0–1的J2(γ),并选择了最小化损失的γ值。在第二轮计算中,我们使用了第一轮计算中获得的γ值附近的0.15 a0–1范围,采用更小的步长0.02 a0–1进行计算。最终选择的γ值为第二轮计算中损失最小的值。

我们通过计算中性(N电子)、阳离子(N + 1电子)和阴离子(N – 1电子)状态的IP和HOMO能量,以验证γ调整过程的有效性。结果显示,γ值的调整显著改善了溶液相吸收光谱的预测性能,且SVγT在预测CT激发能方面表现最优。

### 3. 结果

#### 3.1 最优γ值的分布

本研究对GPγT、PVγT和SVγT三种γ调整方法在数据集中的表现进行了分析。结果显示,GPγT的最优γ值范围为0.10 a0–1到0.22 a0–1,呈现出近似正态分布的特征,其众数位于0.14 a0–1到0.16 a0–1。相比之下,PVγT和SVγT的最优γ值分布更为狭窄,其中PVγT的最优γ值多数接近于0.00 a0–1,而SVγT的最优γ值多数低于0.10 a0–1。这一趋势在所有分子中都保持一致,表明考虑溶剂效应的γ调整方法会显著降低最优γ值。

我们进一步分析了溶剂极性对最优γ值的影响。数据集被划分为不同溶剂组,每组的分子数量从44(甲苯组)到240(二氯甲烷组)。对于每个溶剂组,我们计算了平均最优γ值及其标准差。结果表明,GPγT的最优γ值在不同溶剂极性下变化不大,而PVγT和SVγT的最优γ值随着溶剂极性的增加而减小。SVγT的最优γ值在非极性溶剂中与PVγT接近,但在极性溶剂中差异显著。

#### 3.2 评估γ调整过程

为了评估三种γ调整方法的性能,我们使用GPγT、PVγT和SVγT获得的最优γ值,以及ωPBEh泛函的默认γ值(0.2 a0–1),进行TDDFT计算。我们比较了模拟与实验吸收光谱中的第一个可见峰的吸收能量(ΔEpeak),以评估其准确性。我们使用均方误差(MAE)和均值偏差(MSD)作为量化评估指标。

结果表明,使用默认γ值的TDDFT计算系统性地高估了ΔEpeak,其MSD为0.56 eV。而GPγT的MAE为0.56 eV,MSD为0.43 eV,仅提供了小幅改进。PVγT和SVγT的MAE分别为0.36 eV和0.35 eV,MSD分别为-0.01 eV和0.04 eV,显著优于GPγT和默认γ值。这表明,在溶液相中,考虑溶剂效应的γ调整方法能够显著提高吸收光谱的预测准确性。

我们还评估了SRSH-PCM方法在溶液相中的性能。SRSH-PCM方法通过设置α + β为1/ε来模拟环境的屏蔽效应,而sol-med-OT方法则通过调整α和γ来找到最优的α、γ组合。尽管SRSH-PCM方法在溶液相中表现出良好的性能,但其准确性略逊于SVγT。这表明,在溶液相中,SVγT是预测吸收光谱的最佳方法。

#### 3.3 溶质与溶剂的影响

为了进一步识别溶质-溶剂组合中受益最多的系统,我们分析了不同γ调整方法对ΔE(S1)的预测误差,并探讨了溶剂对TDDFT计算性能的影响。我们采用t-SNE方法对数据集进行了可视化分析,发现不同γ调整方法的预测误差与溶质的化学结构和溶剂的极性有关。

我们还分析了预测误差与重原子数量之间的关系。结果显示,GPγT的误差随溶质大小的增加而减小,而默认γ值、PVγT和SVγT的误差与分子大小无关。这表明,GPγT的误差可能与溶质的大小有关,而其他两种方法则可能与溶质的化学结构和溶剂的极性有关。

#### 3.4 γ调整对离域误差的影响

为了进一步探讨γ调整对离域误差的影响,我们分析了不同溶剂条件下不同γ值对ΔE的影响。我们发现,随着溶剂极性的增加,最优γ值显著减小,这表明溶剂效应在减少离域误差方面起到了重要作用。

我们还分析了不同γ值对ΔE的预测误差,发现PVγT和SVγT在预测CT激发能方面表现出更小的误差。这是因为,随着溶剂极性的增加,最优γ值的减小可以有效地减少离域误差。这表明,γ调整在溶液相中能够显著改善激发态性质的预测。

### 4. 结论

本研究通过大规模数据集的分析,展示了三种γ调整方法在预测溶液相吸收光谱中的性能。我们发现,PVγT和SVγT的最优γ值显著小于GPγT,且SVγT在预测CT激发能方面表现最佳。这表明,在溶液相中,SVγT是一种物理合理且计算高效的γ调整方法。

此外,我们还发现,PVγT和SVγT的最优γ值接近于0.00 a0–1,这表明在溶液相中,较小的γ值能够有效地模拟溶剂屏蔽效应。然而,这些方法在计算成本上仍然优于全参数调整(α, γ)方法,因此对于高通量计算而言,SVγT是一个合理的选择。

最后,我们指出,尽管SRSH-PCM方法在溶液相中表现出良好的性能,但其准确性略逊于SVγT。这表明,在溶液相中,SVγT是最优的γ调整方法。此外,我们还探讨了溶剂效应对γ调整的影响,并指出在某些情况下,添加少量显式溶剂分子可以进一步提高预测的准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号