RS - Coreset:利用小规模数据预测反应产率的创新方法

【字体: 时间:2025年02月11日 来源:Communications Chemistry 5.9

编辑推荐:

  在化学研究和工业生产中,反应优化至关重要。为降低寻找高产量条件的实验负担,研究人员开展 “RS - Coreset” 相关研究。结果显示该方法用小规模数据即可有效预测反应产率,还发现了被忽视的反应组合,对化学研究意义重大。

  在化学的奇妙世界里,反应优化就像一把神奇的钥匙,能够开启高效合成的大门,无论是在学术研究领域,还是工业生产的大舞台上,都有着举足轻重的地位。然而,探索一个庞大的反应体系时,确定高产量的反应条件就如同大海捞针。传统的研究方法需要化学家们进行大量繁琐的实验,耗费大量的时间和精力,而且实验结果还在很大程度上依赖于实验者的专业知识,这就导致一些潜在可行的反应条件很容易被遗漏。比如在著名的 Buchwald - Hartwig 偶联反应研究初期,就因为实验的局限性,只推荐了有限的反应条件,很多可能的组合被忽视了。
为了解决这个棘手的问题,中国科学技术大学的研究人员挺身而出,展开了一项意义非凡的研究。他们提出了一种名为 “RS - Coreset”(“RS” 代表 “Reaction Space”,即反应空间)的高效机器学习工具,致力于用小规模的数据来预测反应空间的产率。经过不懈努力,他们取得了令人瞩目的成果。在多个公共数据集上进行验证时,该方法达到了最先进的水平。不仅如此,他们还将其应用于实验室中 Lewis 碱 - 硼基自由基促进的脱氯偶联反应的实际探索,成功地预测了反应产率,并且发现了一些之前文章中被忽视的可行反应组合。这一研究成果发表在《Communications Chemistry》上,为化学领域的发展注入了新的活力。

在研究过程中,研究人员主要运用了以下几种关键技术方法:

  1. 编码反应:通过计算反应中各成分的分子指纹并连接,将反应组合进行编码,采用如 Mordred、MorganFP 和 AvalonFP 等多种描述符和指纹,这些可由 Python 库 RDKit 从 SMILES 符号生成。
  2. 表示学习:融合两种不同分子指纹或化学描述符,利用两个独立的前馈神经网络将其映射到新的表示空间,在训练过程中,通过最小化不同表示空间聚类结果的 KL 散度以及表示空间与产率聚类结果的 KL 散度来优化。
  3. 构建核心集算法:在新表示空间中运行最大覆盖算法选择代表性反应组合,交替进行表示学习和核心集构建,半径选择基于 k - 均值聚类得到的平均簇内距离,该算法用 Python 实现。
  4. 预测方法:构建好 RS - Coreset 后,利用其产率信息在新表示上训练回归模型,经比较多种回归方法后,选择随机森林回归进行反应产率预测。

模型开发


化学反应空间庞大,化学家通常只能选择一小部分反应组合进行实验,难以全面了解整个反应空间。研究人员试图构建小规模的 RS - Coreset 来近似反应空间,通过迭代过程完成构建。每次迭代包含三个关键步骤:

  1. 产率评估:化学家对选定的反应组合进行实验并记录产率。
  2. 表示学习:模型利用实验得到的产率信息更新表示空间。
  3. 数据选择:基于最大覆盖算法,选择对模型最具指导意义的新反应组合,进入下一轮迭代。经过多轮迭代后,在学习到的表示空间上训练随机森林回归预测模型。

实验结果


  1. Buchwald - Hartwig 偶联数据集实验:研究人员在 Buchwald - Hartwig(B - H)偶联数据集上进行了详细实验,尝试了 2.5% 和 5% 两种不同的核心集大小阈值,并与 YieldBERT、YieldBERT - DA、Uncertainty - Aware 等模型进行对比。结果表明,RS - Coreset 模型在大多数指标上表现更优,证明了其在该数据集上的有效性。
  2. Suzuki - Miyaura 交叉偶联反应实验:为研究方法的可转移性,研究人员在 Suzuki - Miyaura(S - M)反应系统上开展实验。实验设置与 B - H 数据集类似,同样设置 2.5% 和 5% 的训练数据大小,结果显示 RS - Coreset 模型在该数据集上也取得了较好的性能,表明该方法对不同反应系统具有一定的适用性。
  3. 丹麦小组提供的 B - H 数据集实验:丹麦小组发布了一个包含 3359 个实验的数据集用于评估模型性能,研究人员遵循其设置进行了样本外实验。在不添加特定设计分子描述符的情况下,RS - Coreset 模型在大多数产品上取得了与丹麦小组相当的结果,在一些被认为具有挑战性的外推组上甚至表现更优,体现了该模型对新分子子结构的预测能力。
  4. Lewis 碱 - 硼基自由基偶联反应的实际实验:研究人员在 Lewis 碱 - 硼基自由基促进的脱氯偶联反应的实际实验中,构建了包含 93 个反应组合(约占 1920 个可能组合的 5%)的 RS - Coreset。通过对预测高产量和低产量的反应组合进行实验验证,发现模型预测性能出色,平均绝对误差较小,并且还发现了一些之前被忽视的可行反应组合,进一步验证了 RS - Coreset 模型在实际反应中的有效性。

研究结论和讨论


反应产率是评估实验性能的重要指标,它能反映反应的质量并揭示化学背后的原理。但传统的确定高产量反应组合的方法耗时费力,还容易遗漏潜在反应条件。RS - Coreset 方法的出现,为解决这些问题提供了新的思路。该方法通过近似反应空间,利用小规模数据实现了对反应产率的有效预测,不仅在多个数据集上验证了其准确性和稳定性,还在实际实验中发现了被忽视的反应组合。这一成果为化学反应优化提供了有力的工具,在合成化学领域具有巨大的应用潜力。未来,研究人员计划在更复杂的反应系统中验证该框架的有效性,拓展其在预测其他化学性质方面的应用,为化学研究和工业生产带来更多的可能性,推动整个化学领域向更高效率、更精准的方向发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号