碳环芳香分子固体熔点可解释材料信息学模型(Interpretable Materials-Informatics Model for Melting Points of Carbocyclic Aromatic Molecular Solids)
《Results in Materials》:Interpretable Materials-Informatics Model for Melting Points of Carbocyclic Aromatic Molecular Solids
编辑推荐:
有机分子固体熔点的可靠预测(Tm)对于先进含能配方及燃料相关材料的计算设计至关重要。本研究针对819种碳环芳香化合物(包括苯系物和多环芳烃PAHs,常见于含能晶体及高密度燃料中)建立可解释的Tm数据驱动模型。研究人员在材料信息学框架下采用多元线性回归(mult
有机分子固体熔点的可靠预测(Tm)对于先进含能配方及燃料相关材料的计算设计至关重要。本研究针对819种碳环芳香化合物(包括苯系物和多环芳烃PAHs,常见于含能晶体及高密度燃料中)建立可解释的Tm数据驱动模型。研究人员在材料信息学框架下采用多元线性回归(multiple linear regression, MLR),基于化学驱动的描摹子——原子组成、卤素含量、极性官能团,以及与对称性和分子间/分子内氢键相关的非加和碎片校正——构建紧凑的结构-性质关系。所得模型经充分内外部验证表现出稳健预测性能(R2≈0.74,RMSE≈42 K),且通过显式回归系数保持完全可解释性。与近期熔点预测的机器学习方法对比表明:尽管黑箱模型可获得更高精度,本模型在精度、透明度与计算成本间取得有利平衡,仅需简单结构信息而无需电子结构计算。所提出关联式可直接嵌入有机含能材料及碳环芳香燃料组分的计算筛选流程,实现固-液加工温区的快速评估,并支撑具有定制热物理性质的分子材料的理性设计。
论文解读:《Interpretable Materials-Informatics Model for Melting Points of Carbocyclic Aromatic Molecular Solids》发表于《Results in Materials》
一、研究背景与立项依据
液态烃燃料(如碳环芳香化合物)是全球航空运输的主要能量来源,其中碳环芳香组分因氢碳比低、堆积致密而显著提高燃料密度,亦广泛用作熔铸含能材料(如TNT替代品)的基本骨架。熔点(melting point, Tm)是有机碳环芳香分子固体的基本热物理性质,决定纯化条件、加工窗口(理想熔铸温区70–120 °C)、溶解度及环境行为估算,对含能配方与燃料设计至关重要。实验测定Tm受多晶型(polymorphism)、相变复杂行为及含能物热不稳定性的干扰,操作困难且有风险。
现有Tm预测方法各有局限:传统基团加和(group additivity)法对复杂碳环芳香及硝基芳香物偏差大;量子力学模拟与精细定量结构-性质关系(Quantitative Structure-Property Relationship, QSPR)计算成本高;近期机器学习(machine learning, ML)如图形神经网络(Graph Neural Networks, GNNs)、卷积神经网络可提精度(RMSE低至~25 K),但为黑箱模型,缺乏化学可解释性,难指导理性分子修饰,且需大样本与高性能算力,不便于实验室快速筛查。因此亟需一种兼顾准确性、透明性及低计算成本的Tm预测工具,专门适配碳环芳香体系(苯系物benzenoids与多环芳烃polycyclic aromatic hydrocarbons, PAHs)。本研究即在此背景下开展。
二、主要关键技术方法简述
研究人员从Alantary-Yalkowsky整理的约3000种多取代芳香化合物数据库中筛选出819种具可靠实验Tm的碳环芳香化合物(苯系物及稠合PAHs,含烷基、卤素、硝基、羟基、酰胺等取代基),剔除杂环、数据缺失及多晶型差异>10 K的条目。数据集按8:2随机划分为训练集(N=656)与测试集(N=163)。采用多元线性回归(multiple linear regression, MLR)构建Tm预测模型,选取五类描摹子(descriptors):①原子组成加权描摹子nCHNO(C、N、O原子正贡献,H原子负贡献);②卤素原子加权描摹子nHal(I > Br > Cl > F,按极化度赋权);③极性基团计数描摹子nPolar(—COOH、—OH、—CONH—、—NH2、—NO2);④非加和正校正项Δ+(用于>3甲基苯/对位极性取代苯、线型稠合PAHs—Δ+=0.3n_ring、全取代—Cl/—NH2/—CN苯);⑤非加和负校正项Δ?(分子内氢键如邻位—OH与—COOH形成螯合致晶格削弱)。使用QSARINS软件进行回归拟合,并通过留一法交叉验证(leave-one-out cross-validation, LOO-CV)、留多法交叉验证(leave-many-out, LMO, 2000次排除25%)、Y-randomization(Y-scrambling)及外部测试集验证评估性能,绘制Williams图确定适用性域(applicability domain, AD)。
三、研究结果
3.1. Modeling melting points of carbocyclic aromatic compounds: the role of atomic composition, polar groups, and molecular fragments(碳环芳香化合物熔点建模:原子组成、极性基团及分子碎片的作用)
- •
3.1.1. Atomic composition, polar groups, and their influence on the melting points of carbocyclic aromatic compounds(原子组成与极性基团对碳环芳香化合物熔点的影响)
研究人员发现nCHNO中C、N、O原子数增加强化范德华力与氢键势,提升晶格能使Tm升高(正系数);过量H原子增加柔韧性破坏紧密堆积使Tm降低(负系数)。卤素描摹子nHal内按I>Br>Cl>F赋负权重,整体与模型负斜率相乘后对重卤素产生净正贡献——符合极化度越大、色散力越强、Tm越高的物理图像。nPolar中—COOH(最强氢键供/受体)>—CONH—>—OH>—NH2>—NO2,反映氢键强度梯度对晶格焓的提升作用。
- •
3.1.2. Non-additive effects of molecular fragments on the melting points of carbocyclic aromatic compounds(分子碎片对碳环芳香化合物熔点的非加和效应)
仅用加和描摹子(原子+卤素+极性基团)的MLR得R2≈0.65(RMSE≈50 K),无法区分同分异构体(如蒽anthracene Tm=490.0 K vs. 菲phenanthrene Tm=372.2 K,差118 K)。引入Δ+与Δ?校正:Δ+=1适用(1)>3甲基苯或带对位极性取代基苯(对位取向利于分子间氢键网络与密堆积);(2)线型稠合PAHs(Δ+=0.3×环数n,Carnelley规则——高对称性促优堆叠);(3)全—Cl/—NH2/—CN取代苯(刚性偶极排列少缺陷);Δ?=1适用邻位分子内氢键(如邻羟基苯甲酸)削弱分子间作用致Tm被加和模型高估。这些非加和项均有足量样本(n≥36–92)支撑回归。
- •
3.1.3. Predictive modeling of melting points for carbocyclic aromatic compounds using multivariate linear regression(基于多元线性回归的碳环芳香化合物熔点预测建模)
最终MLR方程形式:Tm(K)=167.0+23.11×nCHNO?11.98×nHal+88.70×nPolar+100.5×Δ+?110.1×Δ?。训练集(N=656):R2=0.740,标准误=41.64 K,F=369.9(p=1.9×10?193)。各描摹子p<0.05且95%置信区间窄,重要性排序:nCHNO>nPolar>nHal>Δ+>Δ?;剔除任一项均致R2下降0.12–0.35,证实混合(加和+非加和)框架必要性。描摹子间相关系数|r|<0.2,无显著多重共线性。
- •
3.1.4. Error distribution across compound classes and molecular weights(不同类别及分子量区间的误差分布)
按类别(简单苯系物、稠合PAHs、极性官能化衍生物)平均绝对误差(mean absolute error, MAE)为32–60 K;按分子量分箱:M<250 g/mol时MAE=36.88 K,250–350 g/mol时MAE=49.98 K,M>350 g/mol时MAE=119.04 K(大稠合体系分散增大)。残差呈近似对称零中心分布,无系统正/负偏倚。
3.2. Evaluating the performance of the new model(新模型性能评价)
回归统计见表2:截距167.0±5.0,nCHNO系数23.11±0.70,nHal?11.98±0.89,nPolar88.70±3.15,Δ+100.5±9.1,Δ??110.1±21.2,均达显著水平。消融(ablation)实验证实各描摹子不可替代。
3.3. Evaluating the new model's predictive power and reliability through validation metrics and comparative analysis(通过验证指标与对比分析评估新模型预测能力及可靠性)
内部验证:Q2LOO=0.7342,Q2LMO(25%,2000 it.)=0.7383,RMSECV=41.91 K,一致性相关系数(concordance correlation coefficient, CCC)CV=0.8472,Y-randomization R2YS=0.0075、Q2YS=?0.0115(无伪相关)。外部测试集:R2ext=0.7731,RMSEext=40.57 K,MAEext=31.90 K,CCCext=0.8743。相比Alantary-Yalkowsky UPPER模型(同测试集RMSE=53.24 K,R2=0.656),新模型精度明显更优。
3.4. Evaluating model performance through Williams plots(通过Williams图评估模型性能)
Williams图中训练集与测试集化合物杠杆值(leverage, h)均≤h*=0.253(适用域AD覆盖率96%)。30个高杠杆训练点(|r|<3σ)为"良性高杠杆点(good leverage points)"——代表高度对称PAHs或全取代苯,增强回归稳定性并拓宽AD,剔除后AD降至89%、泛化略降;测试集中无异常高残差点落于AD外,个别较大残差推测源于实验测量波动而非结构不适配。
3.5. Comparison with recent melting point prediction models(与近期熔点预测模型比较)
对比显示:GNN数据增强模型(R2≈0.92,RMSE<30 K)精度更高但是黑箱且需GPU;分子动力学(molecular dynamics, MD)集成法(RMSE<20 K)具物理基础但算力昂贵;本可解释MLR模型在专注碳环芳香化合物的细分域内取得R2=0.74、RMSE≈41.6 K,优势为显式系数揭示原子/基团/对称/氢键机制,手工即可算,无需电子结构计算或大型训练,适合含能材料与燃料的高通量初筛。模型适用Tm范围约200–700 K,最可靠区间~300–500 K;>600 K大刚性PAHs偏差增大因未涵盖复杂堆积重排与多晶型自由能竞争。
3.6. External validation results (30 new compounds)(外部验证结果:30个新化合物)
另取30个未参与建模的碳环芳香化合物做独立外部验证,RMSE=31.7 K(与训练集相当);特大稠合PAHs偏差偏大,硝基芳香含能物预测仍可靠,优于Alantary-Yalkowsky法。
四、讨论与结论翻译总结
研究人员得出结论:本研究将经典化学直觉(如Carnelley对称性规则、氢键效应)与现代材料信息学多元线性回归结合,构建了专用于碳环芳香化合物(苯系物及PAHs)熔点的可解释经验关联模型。模型含五个描摹子——原子组成加权值nCHNO、卤素含量加权值nHal、极性基团计数nPolar,以及分别校正高对称/密堆积导致加和模型低估的正项Δ+与校正分子内氢键致高估的负项Δ?。基于819个化合物训练测试,模型性能(R2=0.74, RMSE≈42 K)优于Alantary-Yalkowsky法,经LOO-CV、LMO-CV、Y-randomization及外部验证证实无过拟合与鲁棒性,Williams图界定清晰适用域。模型无法显式处理多晶型(假定最稳定常见晶型),但凭借简单、透明及无需专用软件之特点,可直接嵌入有机含能材料及碳环芳香燃料组分计算筛选流程,支撑具有定制热物理性质分子材料的理性设计与加工温区快速评估,在精度、可解释性与计算成本间取得有利平衡,填补了碳环芳香体系专用可解释熔点预测工具的空白。