基于图神经网络与实验-结构特征融合的TiO2光降解水污染物速率常数预测研究

【字体: 时间:2025年06月01日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对光催化降解水污染物过程中多因素影响效率的难题,创新性地结合分子图结构特征与实验参数,开发了Graph Attention Network(GAT)等三种图神经网络模型。研究团队通过整合原子级分子图编码(含10种原子特征和4种键特征)与5类实验变量,实现了对446种有机污染物在TiO2表面降解速率常数(-logk)的高精度预测(R2=0.90)。该工作为光催化材料设计提供了兼具结构敏感性和实验适应性的机器学习新范式,发表于《Scientific Reports》。

  

随着全球水资源污染问题日益严峻,光催化技术因其绿色高效特性成为废水处理的研究热点。作为明星催化剂的TiO2虽具备成本低、无毒等优势,却面临电子-空穴对快速复合、可见光利用率低等瓶颈。更棘手的是,污染物降解效率同时受分子结构和反应条件(如pH、温度等)双重影响,传统试错法优化耗时费力。在此背景下,德黑兰大学的研究团队开创性地将图神经网络与实验参数相结合,成功构建了能准确预测降解速率的智能模型,相关成果发表在《Scientific Reports》上。

研究采用多技术联用策略:从公开数据集获取446组污染物降解数据后,通过PubChemPy将分子名转为SMILES字符串,利用RDKit提取原子特征(如杂化状态、芳香性)和键特征(如键类型、立体化学),构建包含10维节点和4维边的分子图;采用PyTorch Geometric实现Graph Convolutional Network(GCN)、Graph Attention Network(GAT)及其混合架构;实验参数经标准化后与图特征在合并层拼接;通过Optuna优化超参数,最终以RMSE、MAE和R2评估性能。

数据准备
团队从Jiang等的研究中获取包含6类实验变量的数据集,剔除3个无效分子后,将分子结构编码为含原子特征(如原子序数、形式电荷)和键特征(如键类型、共轭性)的图结构,通过UMAP可视化显示数据分布非线性特征。

模型开发
设计的GAT-GCN混合模型包含4层网络(2层GAT+2层GCN),采用多头注意力机制动态分配节点权重。对比实验显示GAT表现最优,测试集RMSE仅0.17,显著优于GCN的0.26。William's plot分析发现甲酸、氯仿等分子因结构特殊具有高杠杆值,但未显著影响模型鲁棒性。

结果讨论
与既往采用分子指纹(ANN)和分子图像(CNN)的研究相比,GAT模型在预测精度上具有可比性(R2=0.90),且分子图能更全面编码结构信息。研究首次证实将实验条件(如UV强度、TiO2投加量)与图结构特征融合可显著提升预测性能,h*值分析表明模型对结构新颖分子具有良好外推能力。

该研究突破了传统光催化材料设计的经验依赖模式,建立的"结构-条件-活性"预测框架可扩展至其他材料性质(如带隙能)预测。GAT模型对边缘电子分布的敏感性为理解污染物降解机理提供了新视角,而开源代码和数据集(GitHub公开)将加速环境催化领域的数字化进程。未来通过纳入更多结构多样性分子,有望进一步扩大模型的适用范围,为智能水处理系统开发奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号