氯代多环芳烃的量子化学特性数据集:为Δ机器学习提供精准校正基础

【字体: 时间:2025年06月23日 来源:Scientific Data 5.8

编辑推荐:

  研究人员针对氯代多环芳烃(Cl-PAHs)的量子化学计算精度与效率矛盾问题,构建了包含3417种Cl-PAHs和134种母体烃类的PACHQA数据集,通过GFN2-xTB、r2SCAN-3c和wB97X-D4/def2-TZVP三级理论计算,为Δ机器学习(Δ-ML)模型开发提供基准数据,填补了环境污染物高精度计算的数据空白。

  

多环芳烃(PAHs)及其氯代衍生物(Cl-PAHs)作为不完全燃烧产生的环境污染物,具有强致癌性和致突变性。这类化合物的毒性机制与芳香烃受体(AhR)结合能力相关,而量子化学计算可预测其电子结构特性如HOMO-LUMO能隙、偶极矩等关键参数。然而,高精度计算方法如CCSD(T)计算成本高昂,而快速半经验方法如GFN2-xTB精度不足,这种"精度-效率"矛盾制约了大规模环境风险评估。

为解决这一难题,俄罗斯西伯利亚联邦大学和喀山联邦大学的研究团队开发了PACHQA数据集,包含3551个分子(含3417种Cl-PAHs)的三级理论计算结果,发表于《Scientific Data》。研究通过GFN2-xTB半经验方法进行初步几何优化,再用r2SCAN-3c复合密度泛函理论精修结构,最终采用wB97X-D4/def2-TZVP进行单点能计算。数据集涵盖单点能、热力学函数、HOMO/LUMO能量等18种性质,特别包含电子密度和波函数等机器学习关键特征。

分子选择与结构特征
从PubChem数据库筛选473种Cl-PAHs和134种PAHs构成基础集,通过RDKit生成1281种单氯代、122种全氯代及1541种多氯代衍生物。如图1所示,分子包含4-6个苯环和1-20个氯原子,分为仅含六元环和含四/五元环两组结构类型。

几何优化验证
比较实验晶体结构显示,r2SCAN-3c优化构象的对称校正重原子RMSD值中位数为0.04?(图7a),证实计算可靠性。值得注意的是,全氯代化合物因空间位阻显著偏离平面构型(图6b),其平面拟合(PBF)评分达5?,而单氯代物仅1.5?。

多级理论性质对比
线性回归分析揭示不同理论级别性质间的强相关性:r2SCAN-3c与GFN2-xTB的HOMO-LUMO能隙线性决定系数R2=0.975(表3)。而原子化焓预测需采用线性森林增强模型,测试集RMSD降至4.0 kJ·mol-1(表4),显著优于简单线性回归的101 kJ·mol-1误差。

计算效率分析
如图8所示,GFN2-xTB优化耗时仅为r2SCAN-3c的1/220,而wB97X-D4单点计算占DFT总时间的29%,证实Δ-ML在效率优化方面的潜力。

该研究创建了目前最全面的Cl-PAHs量子化学数据库,其创新性体现在:1) 首次系统覆盖多氯代PAHs异构体;2) 提供电子密度等机器学习关键特征;3) 验证了Δ-ML在环境污染物计算中的适用性。数据集不仅助力毒性预测模型开发,还可用于燃烧化学机理研究,为环境健康风险评估提供理论工具。研究揭示的氯原子数与非平面化程度关系(图6),对理解Cl-PAHs的AhR结合活性具有重要启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号