
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于集成学习与QSPR的AI模型精准预测化合物临界性质与沸点
【字体: 大 中 小 】 时间:2025年08月30日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对传统基团贡献法在复杂分子热力学性质预测中的局限性,开发了结合Mordred分子描述符与Bagging集成神经网络的新型QSPR模型。该模型通过247个分子描述符成功预测1705种含C/H/O/N/S/P/卤素分子的临界温度(TC)、临界压力(PC)、偏心因子(ACEN)和正常沸点(NBP),各项指标R2>0.99,为化工过程设计提供高精度输入参数。
在化学工程领域,准确预测化合物的临界温度(TC)、临界压力(PC)、偏心因子(ACEN)和正常沸点(NBP)是设计工业流程的关键。这些参数不仅是立方型状态方程的核心输入,更直接影响蒸汽压、表面张力等物性计算。然而,传统基团贡献法(GCM)面对复杂分子结构时往往失效——当遇到非常规原子排列或构象效应时,预测精度显著下降。这种局限性促使研究者转向更先进的解决方案。
《Journal of Cheminformatics》最新发表的研究中,Roda Bounaceur团队开发了一套革命性的预测工具。他们采用定量结构-性质关系(QSPR)框架,结合Mordred计算器生成的247个分子描述符,构建了基于Bagging集成的人工神经网络(ANN)模型。该模型在包含1705种分子的DIPPR数据库上训练,涵盖85个化学家族的含C/H/O/N/S/P/卤素化合物,分子量跨度达16-904 g/mol。
关键技术包括:1) 通过Mordred计算器生成1826个初始描述符,经Pearson相关分析和方差筛选保留247个关键特征;2) 采用Bagging集成策略,通过5轮5折交叉验证构建25个子模型,最终预测取平均值;3) 使用SHAP值解析描述符贡献度,发现拓扑极性表面积(TopoPSA)等20个核心参数主导预测。
研究结果展现出突破性性能:
预测精度:所有性质的测试集R2>0.99,临界温度预测平均绝对误差仅3.16K,沸点预测误差2.08K。
物理一致性:对正构烷烃的预测表明,随着碳数增加,TC渐进至1000K,PC收敛于5bar,完美复现实验趋势。
比较优势:相较Carande的SVR模型(33描述符)和ICAS软件,新模型在5393分子测试中展现出更合理的极端值预测。
特别值得注意的是,模型成功解析了分子结构-性质关系:
拓扑描述符AATS2d(滞后2的Moreau-Broto自相关)与TC呈正相关
氢键受体数(nHBAcc)和给体数(nHBDon)共同影响ACEN
碎片复杂度(fragCpx)参数有效捕捉了取代基效应
在讨论部分,作者强调该模型具有三重价值:
方法论创新:首次将Bagging集成应用于热力学性质预测,通过方差缩减提升泛化能力
应用前景:可作为Peng-Robinson等状态方程的输入源,提升焓、密度等衍生性质计算精度
扩展潜力:开源代码和Web工具(https://lrgp-thermoppt.streamlit.app/)支持即时预测
这项研究为复杂分子热力学建模树立了新标杆,其集成学习框架尤其适合处理卤代烃、含杂原子化合物等传统方法难以准确描述的体系。未来工作可探索将模型输出直接耦合到流程模拟软件,实现从分子结构到工艺设计的全链条预测。
生物通微信公众号
知名企业招聘