编辑推荐:
在化学研究中,传统实验数据分析方法难以处理大量数据,耗时耗力。研究人员开展 “利用机器学习解析太字节级质谱数据发现有机反应” 的研究。他们开发出 MEDUSA Search 搜索引擎,发现了新反应,为化学研究提供新途径,推动绿色可持续化学发展。
在化学的奇妙世界里,实验数据就像一座不断堆积的 “数据大山”。随着科学研究的深入,科研人员积累的大规模数据集越来越多,传统的数据处理方法渐渐 “力不从心”。在有机合成实验中,每天都会产生大量的高分辨率质谱(HRMS)数据,这些数据就像未经开采的宝藏,隐藏着无数的化学奥秘。但目前依靠人工分析这些数据,不仅效率低下,还容易遗漏重要信息,许多新的化学产物虽然已被检测和记录,却一直未被发现。此外,开展新实验往往耗时耗力,试剂、催化剂成本高,还面临废物处理难题。为了突破这些困境,俄罗斯科学院泽林斯基有机化学研究所等机构的研究人员进行了一项意义重大的研究,相关成果发表在《Nature Communications》上。
研究人员主要采用了机器学习(ML)、质谱分析以及量子化学计算等技术方法。在机器学习方面,通过合成数据训练模型,开发出名为 MEDUSA Search 的搜索引擎;质谱分析则用于检测和表征化学反应体系的化学成分;量子化学计算采用密度泛函理论(DFT),从理论角度对发现的反应进行验证。
研究结果如下:
- 搜索引擎的开发:MEDUSA Search 搜索流程包含五个步骤。首先,基于对反应体系的先验知识生成假设反应途径列表,可通过用户自定义片段、BRICS 裂解或多模态大语言模型(LLM)来实现。接着,输入化学式和电荷计算离子的理论 “同位素模式”,在倒排索引中搜索两个最丰富的同位素峰,确定候选光谱。之后,对候选光谱进行同位素分布搜索,通过机器学习回归模型确定离子存在阈值,计算理论和匹配同位素分布之间的余弦距离来判断离子是否存在。最后,利用额外的机器学习分类器检测误报。
- 反应发现方法:研究人员通过组合生成分子公式,将反应发现与现有数据中的自动质谱离子搜索相结合。对超过 20,000 个质谱进行搜索,发现了许多同位素分布模式。例如,在 Pd/NHC 催化反应中,检测到多种离子,包括已知的和新发现的,如在 Sonogashira 反应中发现未知的 [ethyl-NHC]+离子,在 Mizoroki-Heck 反应中发现未知的 [vinyl-NHC]+和 [vinyl-phenyl-NHC]+离子等。
- 实验验证:对部分发现的反应进行实验验证。在 Sonogashira 反应中,分离出乙炔基 - NHC 耦合产物,并描述了可能的反应途径;在 Mizoroki-Heck 反应中,通过实验证实了 [BIMe (CH)2COOBu]+和 [IPrCHC (Ph) COOBu]+等乙烯基 - NHC 耦合产物的形成,还使用不同 NHC 配体进行实验,进一步验证了乙烯基 - NHC 耦合反应的普遍性。此外,通过 DFT 量子化学研究,从理论上证实了新发现反应的可行性。
研究结论和讨论部分指出,该研究开发的基于机器学习的计算引擎,在反应发现方面表现出色。它不仅能够减少离子检测的误报率,提高搜索性能,还能利用广泛的离子进行搜索,适用性强。该研究实现了反应途径和全新反应 / 产物这两个层面的创新。这一成果为化学研究开辟了新的道路,让研究人员能够从大量未被充分利用的数据中挖掘有价值的信息,减少新实验的开展,符合绿色可持续化学的发展理念。同时,也让人们更加重视数据收集和描述的重要性,为未来化学领域的研究提供了新的思路和方法,有望推动化学科学取得更多突破性进展。