基于高通量数据与贝叶斯深度学习的全球反应可行性和稳健性预测研究

【字体: 时间:2025年05月16日 来源:Nature Communications 14.7

编辑推荐:

  有机反应可行性与环境因素稳健性预测颇具挑战。研究者融合高通量实验(HTE)和贝叶斯深度学习,针对酸胺偶联反应,构建超 1.1 万例反应的数据集,模型预测准确率达 89.48%,还可评估反应稳健性,为工业合成提供新框架。

  
在有机化学的广袤领域中,精准预测反应的可行性与稳健性犹如在迷雾中探寻灯塔,长期困扰着科研人员。对于药物研发而言,早期筛选若能快速排除不可行反应,将大幅缩短研发周期、降低成本。然而,现有方法依赖专家经验或理论计算,难以应对复杂化学空间的多样性与不确定性:文献数据缺乏阴性结果导致统计模型偏差,传统理论计算难以全面解析分子结构与反应结果的因果关系,而反应对环境因素(如湿度、氧气)的敏感性更使工业放大生产面临重重挑战。在此背景下,上海 ChemLex 等机构的研究团队开展了一项突破性研究,相关成果发表于《Nature Communications》,为解决上述难题提供了新的路径。

研究团队采用的核心技术包括自主开发的高通量实验(HTE)平台与贝叶斯神经网络(BNN)模型。通过 HTE 平台,团队在 156 小时内完成了 11,669 例酸胺偶联反应,覆盖 272 种酸、231 种胺等,构建了目前规模最大的单一反应类型 HTE 数据集。结合贝叶斯深度学习,实现了反应可行性预测与不确定性分析。

结果


1. 数据驱动的化学空间探索


研究通过 “多样性引导底物降采样” 策略,基于专利数据集 Pistachio,筛选出结构多样且具工业相关性的酸胺组合。利用 B?ttcher 复杂性指数与 t-SNE 可视化,验证了采样数据集与专利数据的结构相似性,同时通过引入基于亲核性、位阻效应等化学规则的阴性样本,解决了传统数据集中 “阳性偏倚” 问题,最终形成包含 8,095 种目标产物的高质量数据集。

2. 贝叶斯神经网络的预测性能


BNN 模型在随机拆分测试中实现了 89.48% 的可行性预测准确率与 0.86 的 F1 分数,优于蒙特卡洛 dropout(MCdropout)、深度核学习高斯过程(DKLGP)等方法。在更具挑战性的 “单底物未见”“双底物未见” 分层拆分测试中,模型仍保持 72.47%-80.84% 的准确率,展现出对未知化学空间的泛化能力。校准曲线与错误预测曲线表明,BNN+No-U-Turn 采样器(NUTS)能可靠量化预测不确定性,其预期校准误差(ECE)显著低于其他方法。

3. 不确定性分解与主动学习


通过将预测不确定性分解为认知不确定性(epistemic uncertainty,源于数据不足)与随机不确定性(aleatoric uncertainty,源于数据固有噪声),团队发现认知不确定性可引导主动学习策略:仅需 20% 的数据量即可达到随机采样的模型性能,显著提升数据利用效率。随机不确定性则与反应稳健性直接相关,高随机不确定性反应在重复实验中表现出低重现性,其组内相关系数(ICC)较对照组低 35%,印证了其对环境因素的敏感性。

4. 工业应用验证


分析文献中毫克级(发现阶段)与千克 / 吨级(工艺阶段)反应数据,发现工艺阶段反应的随机不确定性显著低于发现阶段,表明模型可有效识别适合工业放大的稳健反应。以药物硼替佐米(Bortezomib)的合成为例,工艺阶段反应的随机不确定性(0.209)低于发现阶段(0.264),进一步验证了模型在实际生产中的应用价值。

结论与讨论


本研究构建了 “HTE + 贝叶斯深度学习” 的标准化框架,首次实现了酸胺偶联反应可行性与稳健性的系统性预测。通过高通量实验填补数据空白、贝叶斯模型量化不确定性,为化学空间探索提供了高效工具。研究不仅突破了传统方法对专家经验的依赖,更通过不确定性分析指导实验设计与工艺优化,显著降低工业生产中的试错成本。未来,该框架有望扩展至更多反应类型,推动 “数据驱动型” 有机合成的发展,为药物研发与精细化工领域带来革命性变革。其核心价值在于将机器学习与实验科学深度融合,为复杂化学问题提供了兼具准确性与可解释性的解决方案,标志着人工智能在化学领域的应用迈向新高度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号