《Environmental Research》:Molreac-Oxi: An End-to-End Deep Learning–Quantum Chemistry Platform for ?OH Reactivity (k
OH), Pathways, and Active-Site Insight
编辑推荐:
高效评估污染物与羟基自由基反应速率常数的研究采用混合元模型框架,融合深度预训练模型(Uni-Mol)与传统机器学习(随机森林、XGBoost等),通过DFT优化结构和多维量子化学描述符提取,实现高精度预测(R2=0.806,MAE=0.0425)。结合PES-Learn模型与纳米反应器MD模拟,在降低计算成本的同时提升机制分析效率,并通过在线平台提供闭环工作流程。
Fulin Shao|Weiying Li|Zhiwei Liang|Changping Wang|Ting Li|Zhongqing Wei|Xingzhong Xu
同济大学环境科学与工程学院,上海,200092,中国
摘要 为了解决在环境污染控制中高效评估污染物-羟基自由基(•OH)系统反应速率常数(k
OH )这一长期存在的挑战,本文提出了一种混合元模型框架,该框架将深度预训练模型与传统的机器学习方法相结合,并通过一个集成平台实现预测、机理推断和在线分析的统一。从通过密度泛函理论(DFT)优化的结构中提取了968种污染物的多维量子化学描述符,并对一个大规模预训练的3D分子模型(Uni-Mol)进行了微调。微调后的Uni-Mol模型与多层学习器(包括随机森林、梯度提升、XGBoost、LightGBM和CatBoost)结合使用,它们的输出通过一个正则化线性元学习器进行融合以估计k
OH 。这种堆叠集成方法获得了R
2 = 0.806的准确率,且均方误差(MAE)低于任何单一学习器。通过对数10次方k
OH 的拟合图和残差诊断显示,不同化学类别之间的偏差较小。通过SHAP(Shapley Additive Explanations)和条件相关性感知效应估计方法提高了模型的可解释性;在适当的情况下,还报告了基于自助法(bootstrap)支持的阈值,以避免对共线性描述符的过度解释。为了弥补静态结构-性质模型中势能面(PES)分辨率的局限性,一个基于72,502种有机污染物的PES-Learn模型与纳米反应器分子动力学(MD)工作流相结合,从而能够在接近DFT的保真度下以低得多的成本生成机理级假设;在GPU上,该方法的推理速度比传统DFT快约3.1 × 10
4 倍。这些模型和CDFT分析被封装在一个在线平台(
https://www.bohrium.com/apps/molreac-oxi )中,提供了一个从快速批量筛选到反应路径和活性位点分析的闭环工作流程。
章节摘录 引言 准确评估污染物的降解能力仍然是环境污染控制中的一个关键科学挑战(Wang等人,2021年;Yang等人,2024年)。污染物在氧化反应系统中的降解速率不仅决定了它们的迁移和环境命运,还直接影响污染控制策略的制定和优化。传统的实验方法,如气相/液相色谱-质谱(GC–MS/LC–MS),具有较高的精度
数据集准备和结构优化 为了保持可比性,大多数化合物是从先前报道的定量结构-活性关系(QSAR)建模研究中提取的,保留了相同的训练集、验证集和测试集划分(Zhong和Guan,2023a)。数据集包括了每种化合物在标准条件(25°C)下与羟基自由基(•OH)反应的速率常数(kOH ,M-1 s-1 )。离子物种被排除在数据集之外;然而,对于每种中性分子,我们计算了其在不同电荷状态下的垂直单点能量
模型性能评估 计算化学性质,包括能量、键长、键角和分子轨道特征,受到精确分子结构的强烈影响,这些结构通常是通过计算密集型的密度泛函理论(DFT)计算获得的(Afolabi等人,2018年;Goldman和Walters,2006年)。图2a比较了污染物数据集中ETKDG/MMFF94结构与DFT优化结构之间的结构分布。结构偏差主要发生在结论 本研究建立了一个端到端的深度学习-量子化学框架,通过大规模3D预训练和多模型堆叠来预测污染物-•OH反应速率常数(kOH )。在对968种带有DFT注释的污染物进行迁移学习后,堆叠集成模型的R2 值为0.806,MAE为0.0425(以对数10次方kOH 为目标),其准确率高于仅基于1D/2D描述符或分子指纹的早期QSAR模型。SHAP引导的阈值和
CRediT作者贡献声明 Zhiwei Liang: 撰写、审稿与编辑、验证、研究。Changping Wang: 监督、资源提供、研究、形式分析。Ting Li: 撰写、审稿与编辑、验证、监督、资源提供。Zhongqing Wei: 撰写、审稿与编辑、可视化、验证、监督、资源提供、项目管理、方法论。Xingzhong Xu: 撰写、审稿与编辑、验证、资源提供、方法论。Fulin Shao: 撰写、审稿与编辑、初稿撰写,
利益冲突声明 ? 作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。
致谢 本研究得到了中国国家重点研发计划 (第14个五年计划期间,项目编号2024YFC3810901-03)、国家自然科学基金 (项目编号52470012)以及供水系统中水质化学和生物稳定性评估与控制策略研究项目 (项目编号FW8524069)的财政支持。