《Angewandte Chemie》:Staged Diversity-Constrained Machine Learning for High-Dimensional Reaction Condition Optimization
编辑推荐:
本文介绍了一种用于高维化学反应条件优化的分阶段多样性约束机器学习框架。该策略通过逐阶段放宽的多样性约束,在探索与利用间达成平衡,系统性评估揭示了阶段数(而非探索比例)是主导优化效率的关键。与贝叶斯优化(BO)相比,该框架在高维空间更具优势,并成功应用于钌催化间位C─H官能化反应,仅用44次实验即从11880种可能条件中寻得最优方案(产率91%)。研究为加速复杂合成空间的优化提供了经验证的实用工具。
引言
化学反应条件的优化是现代化学合成的核心挑战。随着合成方法学的快速发展,现代有机反应日益复杂,整合了催化剂、配体、溶剂、添加剂等多种变量以及光、电场等外部影响,使得传统单因素优化方法难以应对。这种复杂的相互依赖性形成了一个可能性迷宫,使得开发有效的高维合成空间优化策略变得至关重要。数据科学的快速发展,特别是机器学习(ML)策略,为解决上述挑战带来了变革性机遇。机器学习能够利用实验数据构建预测模型,有效压缩和近似复杂的结构-性能关系,从而显著减少实验工作量。在数据驱动的反应优化中,平衡两个关键目标至关重要:掌握整体的结构-性能关系,以及识别高价值的反应条件。先前的研究表明,将这两个目标整合到一个统一的优化模型中,不仅可以防止过早收敛,还能发现令人惊讶的化学设计。
在诸多策略中,贝叶斯优化(BO)被证明特别有效,它通过整合模型不确定性与预测性能来指导实验选择。作为补充,研究者先前提出了一种概念验证策略,将多样性约束设计与反应性能预测相结合,以导航高维化学空间。虽然这个初始框架证明了多样性约束在增强采样多样性和优化效率方面的有效性,但也由于约束强度和探索比例等参数引入了额外的建模复杂性。如何合理地调整这些参数并将该方法推广到不同反应体系,是本研究的主要动机。
分阶段多样性约束优化工作流程
本研究提出的优化策略整体工作流程以Doyle等人报道的钯催化C─C交叉偶联反应数据集为例进行说明。该框架整合了两个互补的组成部分:1. 分阶段多样性约束,控制不同阶段采样的化学覆盖范围;2. 机器学习反应性能预测器,对所有未经测试的条件进行排序并指导每次实验选择。两者共同形成一个闭环工作流程,逐步实现从广泛探索到聚焦优化的过渡。
在钯催化C─C交叉偶联反应数据集中,反应空间涵盖五个维度:亲电试剂(E)、亲核试剂(N)、配体(L)、碱(B)和溶剂(S),共有3696种可能组合。在此高维空间中,分阶段多样性约束规定了每个新选择的实验必须与所有先前探索过的组合有多么不同。在最严格的约束(阶段1)下,一个候选条件只有当其在任何反应维度上不与任何先前测试过的实验共享选项时,才有资格被执行。因此,许多排名靠前的预测候选条件由于与早期样本存在多维重叠而被有意排除,从而在初始探索阶段强制实现了最大的化学覆盖范围。随着优化的进行,多样性约束被逐渐放宽,允许一个、两个、三个,最终四个重复维度,直到完全无约束的阶段5,此时仅基于预测性能进行贪婪排名。当一个阶段内的采样达到预定义的探索空间比例阈值时,会发生阶段间转换,确保工作流程转向越来越专注于利用的采样之前,每个阶段都积累了足够的结构多样性。
分阶段优化工作流程由两个关键参数控制:阶段数和分配给每个阶段的探索空间比例。阶段数决定了在整个优化过程中多样性约束被逐步放宽的次数。对于一个具有D个条件维度的反应,最严格的约束(阶段1)禁止所有D个维度的重复,约束可以逐步放宽,最多可达D个阶段。第二个超参数,探索空间比例,定义了在进入下一个阶段之前,每个阶段内允许检查的剩余反应空间的比例。这个参数控制了每个阶段的采样广度:较小的比例导致快速的阶段转换和有限的覆盖范围,而较大的比例则延长了探索阶段,为模型提供了更广泛的结构基础。
除了多样性约束组件,每个优化周期还依赖于一个机器学习反应性能预测器。在任意给定迭代中,所有未经测试的反应条件都被数值化编码,本研究评估了三种描述符家族:独热编码、Mordred分子指纹和物理有机(PhysOrg)描述符。这些编码后的候选条件然后由从八种算法中选出的回归模型进行评估,包括决策树、极端随机树、梯度提升、k最近邻、核岭回归、线性支持向量回归、随机森林和岭回归。预测器的功能是相同的:为所有剩余候选条件生成一个排序的预测表面,使分阶段优化框架能够将性能引导的选择与多样性调节的采样结合起来。
评估控制分阶段多样性约束优化的关键因素
为了定量评估关键因素如何影响分阶段多样性约束优化策略的效率,我们在钯催化的C─C和C─N交叉偶联数据集上进行了系统的优化模拟。为了模拟真实的优化场景,所有起点被限制在每个数据集产率分布的底部10%。对于每次优化运行,随机选择五个低产率反应作为初始批次,工作流程进行十个批次(总共五十次实验)。每个参数配置通过100条独立的优化轨迹进行评估,优化效率使用两个互补的指标进行量化:1. 优化轨迹达到80%产率阈值所需的平均批次数量(ABT);2. 在前两个实验批次内获得的平均最大产率(AMY)。
首先,在钯催化C─C交叉偶联数据集上系统比较了描述符-算法组合,为后续分析建立一致的建模平台。在多样性约束阶段数为5、探索比例为50%的固定设置下,评估了三种描述符家族与八种回归算法的组合。性能差异明显:独热编码/岭回归组合表现出缓慢且不稳定的改进;Mordred/梯度提升组合取得了更好的收敛行为;而物理有机描述符/岭回归组合提供了最稳健的性能,AMY达到83.44%,ABT为1.95。拼接所有描述符没有带来有意义的益处,同时增加了建模负担。这些结果确立了物理有机描述符/岭回归作为后续评估分阶段多样性约束和探索空间比例影响的统一建模配置。
随后,评估了多样性约束阶段数对优化性能的影响。检查了从无约束到完全分阶段的五级设计共五种阶段设置,同时将探索比例固定为50%以进行比较。明显的单调趋势出现了。没有任何多样性约束的贪婪优化产生了最差的结果,轨迹经常被困在局部高预测区域。引入多样性调节显著提高了稳定性。两阶段约束将AMY提高到72.81%,ABT降低到2.61;三阶段和四阶段设计进一步增强了性能。五阶段配置,对应于从最大约束到完全贪婪采样的完全分阶段放宽,提供了最强的性能,AMY达到83.44%,ABT仅为1.95。值得注意的是,随着阶段数的增加,轨迹之间的离散度逐渐缩小,表明更强的早期阶段多样性约束有助于模型更可靠地学习结构-性能图景,并避免过早的局部化。
接着,在五阶段多样性约束设置下,检查了探索空间比例如何影响优化行为。比较了10%、20%、30%、40%和50%五个探索水平,同时保持所有其他建模变量一致。在这些配置中,整体优化结果几乎相同:ABT始终保持在1.95,AMY一致收敛到83.44%。尽管单个轨迹在早期采样路径上可能表现出明显差异,但这些差异在统计水平上基本消失。更大的探索比例虽然需要在每个阶段内付出更多的采样努力,但可能为模型提供了更丰富的结构-反应性空间信息,使其能够更有效地识别反应空间的高性能区域。因此,更广泛探索和改进模型学习之间的竞争效应相互平衡,导致聚合优化性能的差异可忽略不计。
为了进一步验证分阶段多样性约束优化框架的可靠性和普适性,在第二个完全表征的高通量实验数据集——Doyle等人开发的钯催化C─N交叉偶联反应上进行了额外评估。该数据集涵盖一个定义明确的四维反应条件空间,包括卤化物、添加剂、催化剂和碱,总共有3960种可能的条件组合。与C─C交叉偶联数据集的分析一致,优化轨迹从产率分布的底部10%开始初始化,并使用相同的统计程序和效率指标进行评估,物理有机描述符/岭回归作为反应性能预测模型。
在C─N交叉偶联数据集上,多样性约束阶段数如何影响优化性能的结果显示,没有任何约束的贪婪优化产生了最弱的结果。引入分阶段多样性调节显著改善了收敛性。四阶段设计提供了最高的优化质量,AMY达到65.90%,仅需3.20个批次即可超过80%的阈值。轨迹离散度也随着阶段数的增加而稳步缩小。值得注意的是,一小部分优化轨迹在整个过程中仍然停留在接近零产率的区域,这种现象在较弱的多样性约束设置下更频繁地发生。进一步检查发现,这些案例有一个共同特征:每个批次的实验反馈产率都接近于零,为产率预测器提供了不足以建立有意义的结构-反应性关系的信息。在这种信息贫乏的条件下,优化基本上退化为随机采样,导致从极低产率开始的轨迹除非偶然遇到非平凡的实验结果,否则将一直局限在低产率区域。这种现象与多样性约束设计的基本动机直接一致:通过强制早期阶段的多样性,工作流程被迫走出先前采样的化学相似区域,从而增加了获得信息性产率信号的可能性。
在四阶段多样性约束设置下,接下来评估了变化探索空间比例对C─N交叉偶联反应优化性能的影响。在测试的五个探索水平(10%到50%)中,优化结果保持高度一致。ABT紧密聚集在3.2-3.3左右,AMY在所有条件下都接近65.90%。这些微小的变化表明,对于该反应体系,一旦应用了分阶段多样性约束,探索空间比例对聚合优化效率的影响再次非常有限。
比较钯催化C─C和C─N交叉偶联数据集的参数评估结果,揭示了一致性。在这两个数据集中,多样性约束阶段数是控制优化质量的主要因素:增加阶段数稳步提高了收敛性,并且采用反应维度所允许的最充分的分阶段放宽结构,始终提供了最稳定和最高产率的优化轨迹。相比之下,一旦应用了分阶段约束,探索空间比例对聚合优化效率的影响非常有限。因此,这两个化学性质不同的反应空间中的平行趋势证明了分阶段多样性约束策略具有很强的跨系统普适性,并支持相同的推荐参数选择:最大化反应系统所允许的分阶段多样性约束数量。
优化策略比较
为了在数据驱动的反应条件发现中,对不同优化范式进行基准测试,对三种代表性策略进行了系统比较:贪婪优化、贝叶斯优化和我们分阶段多样性约束工作流程。特别是,贝叶斯优化在一组广泛的采集函数下进行了评估,包括改进概率、期望改进和几种上置信界限变体。
在五维钯催化C─C交叉偶联数据集中,分阶段多样性约束策略在所有评估方法中产生了最高的整体优化效率。在此配置下,工作流程以1.95的ABT达到80%产率阈值,并提供了83.44%的AMY。相比之下,性能最佳的贝叶斯优化配置表现出稍弱的行为,需要1.98的ABT,并实现81.33%的AMY。贪婪优化表现明显更差,轨迹经常被困在局部高预测区域,AMY仅为58.59%。
为了进一步说明导致这些统计趋势的行为差异,通过合并反应条件维度构建的二维投影可视化了具有代表性的优化轨迹。分阶段多样性约束方法显示出广泛的早期探索,随后是逐步聚焦的细化,而贝叶斯优化表现出采集驱动的定向移动,偶尔会有跳跃,贪婪优化则迅速局限在一个狭窄的局部区域。这些性质上不同的搜索行为突出了分阶段多样性约束框架和贝叶斯优化背后根本不同的优化逻辑,强调这两种方法根据互补的决策原则运行。
对于四维钯催化C─N交叉偶联数据集,三种优化策略的相对性能与在C─C系统中观察到的不同。在这里,贝叶斯优化表现出最强的整体行为,以2.21的ABT达到80%产率阈值,并实现了77.78%的AMY。分阶段多样性约束工作流程显示出中等但明显较低的效率,需要3.20的ABT,AMY为65.90%。贪婪优化再次表现最弱,AMY仅为41.38%。与这些统计趋势一致,对代表性轨迹的分析进一步说明了优化策略的不同优化逻辑:贝叶斯优化遵循更具方向性的搜索路径,而分阶段多样性约束工作流程表现出更广泛和更分散的早期阶段探索。相比之下,贪婪优化追踪了一个简单的、局部受限的搜索模式,在狭窄区域内振荡,几乎没有向上移动的机会。
比较两个钯催化高通量实验数据集的统计优化效率,揭示了分阶段多样性约束策略和贝叶斯优化相对性能的明显维度依赖性。在五维C─C偶联空间中,分阶段工作流程始终提供更好的优化效率,表明强制早期阶段多样化在模型学习更具挑战性的高维反应空间中特别有效。相比之下,在四维C─N体系中,其较低的维度使得结构-性能图景更加紧凑,贝叶斯优化收敛得更快,性能也更高。这突出了采集驱动搜索的优势,特别是在反应空间更容易建模的情况下。这些平行趋势表明,随着维度的增加,分阶段多样性约束框架变得越来越有益,因此我们预计,在五维及更高维的合成空间中(这是许多当代多变量优化问题的典型情况),结构化的多样性调节将在实现高效可靠的探索中发挥有益作用。
实际应用与案例研究验证
为了实现分阶段多样性约束优化策略的实际部署,并使其易于被合成化学家使用,我们开发了一个交互式的、基于浏览器的工具,将整个工作流程——从描述符/模型选择到多样性约束配置和实验推荐——整合到一个单一、用户友好的界面中。此实现无需编码专业知识,允许用户通过简单的菜单驱动操作执行优化活动。
在此实现的基础上,我们试图在一个真实的合成场景中评估优化策略的性能,并确定工作流程是否能够自主识别超过文献基准的反应条件。目标不是重现报道的方案,而是用一个要求严格的多变量优化问题挑战模型,并检查它是否能够快速导航一个大的反应条件空间,以在没有人为干预的情况下发现更优越的催化设置。为此,我们选择了Ackermann课题组开发的钌催化间位C─H官能化反应,该反应因其复杂的多参数依赖性和明确的实验性能而成为一个极好的测试平台。对于特定的目标底物组合,报道的标准条件提供了34%的产率。该反应涉及四个关键维度:催化剂前体、配体、溶剂和碱,根据先验知识,每个维度考虑了大约十个候选选项,总共产生了11880种可能的条件组合。这个广阔的搜索空间为评估模型引导的优化能否从最小的实验输入开始,在没有手动引导的情况下,高效地发现显著改进的反应条件,提供了一个理想的场景。
值得注意的是,在优化模型的指导下,我们仅用44次实验就完成了四阶段多样性约束条件探索,并确定了一套非常有效的条件。值得注意的是,报道的标准条件(催化剂:[RuCl2(p-cymene)]2;配体:(PhO)2PO2H;溶剂:1,4-二氧六环;碱:K2CO3)在起始采样中被有意排除以避免偏差。相反,随机选择了12个实验,覆盖四个反应维度的所有化学特性,作为第一阶段的起点。这组初始实验中的最佳实验结果在24小时后仅产生34%的产率,使用的是Ru(OAc)2(p-cymene)/PPh3/DMF/CsHCO3的组合。优化后,最终的模型引导条件不仅与起点完全不同,而且也与文献标准条件不同。在Ru(OAc)2(p-cymene)/P(4-CF3C6H4)3/甲苯/Na2CO3的组合下,反应在24小时内实现了91%的产率,为该转化提供了一个新的机器学习预测的催化解决方案,这证明了我们优化策略的潜力。
我们可以进一步评估这个成功案例的优化轨迹,突出高维合成空间中独特的模型引导探索模式。采样比例随优化阶段的变化清楚地表明,催化剂、配体和溶剂维度表现出相似的、逐渐集中的分布模式。这表明,在优化过程中,模型正逐渐聚焦于这三个维度,而不是遵循合成实验室中通常采用的单因素优化顺序逻辑。此外,对催化剂/配体/溶剂维度采样演化的检查揭示了一致的化学模式:最初广泛且分散的潜在最优区域逐渐变得更加清晰,因为迭代的实验反馈完善了模型对反应图景的评估。具体来说,在催化剂维度,模型从广泛的采样开始,然后逐渐将其焦点缩小到具有羧酸根阴离子和芳烃π配体的中性催化剂前体。到第3阶段,它聚焦于[Ru(OAc)2(p-cymene)]和[Ru(O2Piv)2(p-cymene)],最终选择了Ru(OAc)2(p-cymene)。在配体维度,模型在早期阶段迅速丢弃了羧酸盐和磷酸盐配体,然后在后期阶段探索取代的三苯基膦配体,最终在第4阶段选择了P(4-CF3C6H4)3。在溶剂维度,尽管文献条件中使用的溶剂1,4-二氧六环在初始采样中被探索过,但随着优化的进行,模型逐渐聚焦于甲苯,并在第3和第4阶段保持这一选择。然而,在碱维度,模型反复测试了不同的选项,表明碱的影响是微妙的,并且与其他三个维度相比,不是决定性的。因此,模型将这个维度留到最后阶段进行贪婪优化搜索。这种详细的探索强调了模型通过自适应、数据驱动的方法逐步缩小最佳选项的能力,证实了我们优化策略的有效性。
结论
总而言之,我们开发并系统评估了一个用于高效优化高维化学空间中反应条件的分阶段多样性约束机器学习框架。该策略将批内多样性约束与反应性能预测器相结合,并在多个阶段逐渐放宽约束,从而实现从广泛探索到聚焦利用的受控过渡。通过对钯催化C─C和C─N交叉偶联反应的全面高通量实验数据集分析,我们发现多样性约束阶段数,而非探索空间比例,是主导优化效率的关键因素。最大化反应维度所允许的阶段数始终能提供最稳定的轨迹和最高的优化效率,这凸显了强制早期阶段多样化对于可靠模型学习的重要性。
与贝叶斯优化的基准测试进一步阐明了不同策略最有效的算法机制。在这两个数据集中,没有多样性调节的贪婪优化通常会陷入局部高预测区域,表现最弱。相比之下,在分阶段多样性约束框架和贝叶斯优化之间出现了明显的维度依赖性:在五维钯催化C─C偶联空间中,分阶段工作流程实现了更高的产率和更快的收敛;而在四维C─N偶联空间中,贝叶斯优化收敛得更快,性能更高。这些互补的趋势表明,随着反应空间的维度和组合复杂性的增加,结构化的多样性调节变得越来越有利。
为了便于实际应用,我们将分阶段多样性约束工作流程实现为一个交互式、基于浏览器的工具,将描述符/模型选择、多样性约束配置和实验推荐整合到一个用户友好的界面中,消除了对编码专业知识或专门计算基础设施的需求。将该框架应用于涉及11880种可能条件组合的钌催化间位C─H官能化反应,仅用44次实验就从低产率的初始条件中识别出一种新的催化设置,可提供91%的产率,显著优于报道的标准条件。这个成功的案例研究强调了分阶段多样性约束优化在实际反应系统中的实用能力。总体而言,本研究为高维反应条件优化建立了一个经过验证且易于使用的平台,我们预计,将结构化多样性调节与自主实验和更复杂的性能目标相结合,将进一步加速合成化学中的数据驱动发现。