利用多重合库仑爆炸图像中的关联性结合机器学习区分分子结构
《Nature Communications》:Exploiting correlations in multi-coincidence Coulomb explosion patterns for differentiating molecular structures using machine learning
【字体:
大
中
小
】
时间:2025年12月13日
来源:Nature Communications 15.7
编辑推荐:
本研究针对传统库仑爆炸成像(CEI)在处理多原子分子时面临的高维数据分析挑战,开发了基于机器学习的分析框架。研究人员通过探测高达八离子符合的"完整"CEI实验,结合UMAP降维、HDBSCAN聚类和随机森林分类等算法,成功实现了对二氯乙烯异构体的自动识别与区分。该研究建立了可扩展的分析方法,为研究光化学反应的超快结构动力学提供了新途径。
在化学、药理学和材料科学领域,精确区分分子结构异构体具有重要意义。虽然异构体具有相同的分子式,但其空间构型的微小差异会导致截然不同的物理化学性质。例如在药物研发中,手性分子的不同对映体可能具有完全不同的生物活性。传统库仑爆炸成像(CEI)技术虽然能够提供超快时间尺度的分子结构信息,但随着分子尺寸增大,检测所有碎片离子并解析高维动量数据变得极具挑战。
目前CEI技术主要面临两个关键瓶颈:一是实验上实现多离子符合探测的技术难度,二是从高维数据中提取有效结构信息的分析方法局限。当检测到三个以上离子时,参数空间迅速扩大,传统基于人工直觉的数据分析方法只能探索该空间的狭窄部分,大量结构信息因此被埋没。特别是在研究光化学反应动力学时,反应体系中可能同时存在多种异构体、中间体和副产物,迫切需要发展能够自动识别和区分这些结构的分析方法。
在这项发表于《Nature Communications》的研究中,美国堪萨斯州立大学James R. Macdonald实验室的研究团队提出了一种创新解决方案。他们通过结合多离子符合CEI实验与机器学习算法,建立了能够自动识别和区分分子结构的分析框架。
研究人员采用的主要技术方法包括:使用钛蓝宝石激光系统(810纳米,25飞秒,3千赫兹)产生高强度激光脉冲(~1015瓦/厘米2),通过超声分子束技术制备冷分子样品,采用双面速度成像谱仪和延迟线位置敏感探测器进行多离子符合探测,开发了经典的库仑爆炸模拟程序,并应用UMAP(均匀流形近似与投影)、HDBSCAN(基于层次密度的聚类算法)和随机森林分类器等机器学习算法进行数据分析。
Coulomb explosion imaging of cis-DCE: experiment versus simulation
研究首先展示了顺式二氯乙烯(cis-DCE)的CEI结果。在六重符合通道中,所有单电荷碎片离子(两个H+、两个C+和两个35Cl+)的动量均被检测。通过定义以两个Cl+动量差向量为px轴的坐标系,研究人员构建了牛顿图,显示出清晰的动量分布模式。实验与模拟结果高度一致,表明测量数据真实反映了分子在平衡几何结构附近的信息。
Coulomb explosion imaging of trans-DCE: experiment versus simulation
对反式二氯乙烯(trans-DCE)的CEI分析采用了不同的坐标系定义方式。由于trans-DCE中两个Cl+离子的动量方向平行性较差,研究人员改用两个C+离子的动量差向量来定义pxpy平面。这一选择体现了分析不同分子结构时需要采用合适的参考系的重要性。
Automatic separation of cis and trans isomers events from experimental data of a mixture
研究的关键突破体现在对异构体混合物的自动分离能力上。通过UMAP将18维的动量数据降维至2维,数据点自然分成了两个清晰的群集。HDBSCAN聚类算法成功地将这些事件自动标记为顺式和反式异构体。分离后的事件分别绘制的动量图像与单独测量的结果高度一致,证明了机器学习方法在事件级别自动区分异构体的有效性。
Discriminative power analysis for distinguishing cis- and trans-DCE isomers
研究人员进一步使用随机森林分类器定量评估了不同特征对区分异构体的贡献度。分析发现,动量向量的X和Y分量比Z分量更具判别力,这符合1,2-DCE异构体的平面对称性。在内部动量坐标中,角度特征(θij)比模量差(dij)具有更强的区分能力,因为异构体通常具有相似的键长。特别值得注意的是,两个Cl+碎片间的角度(θ56)被确定为最强的单一判别特征,能够完全分离两种异构体而无重叠。
Multidimensional analysis for structure differentiation
研究还扩展到四种分子构型的区分:顺式-DCE、反式-DCE、扭曲1,2-DCE中间几何体和1,1-DCE。通过引入更高阶的相关性特征——平面间角度(φijkl),研究人员成功实现了对所有结构的清晰分离。这一分析强调了利用多个观测量对于区分相似分子结构的必要性,也证明了机器学习能够自动确定哪些特征最为重要。
Supervised UMAP classification of experimental CEI data
为了测试维度缩减方法的极限,研究人员模拟了光激发导致产物几何结构广泛分布的情况。在这种情况下,无监督UMAP降维只能实现部分分离,而监督UMAP方法通过在标记的模拟数据上训练,优化了两个非线性组合,产生了能够清晰分辨四个几何结构的二维潜在空间。将该方法应用于实验数据,实现了对反式异构体约99%和顺式异构体约84%的准确识别,总错误率仅为5.5%。
"Complete" CEI of isoxazole with eight-ion coincidences
最后,研究展示了八离子符合测量的可行性,实现了异恶唑(C3H3NO)的完全解离和检测。与四重符合通道相比,八体完全符合通道显示出更窄的分布和零基线特征,体现了背景自由数据的优势,可用于表征弱通道和少数物种的贡献。
本研究通过"完整"CEI技术与机器学习分析的结合,建立了能够自动识别和区分分子结构的强大框架。该方法不仅适用于静态结构分析,更有望应用于时间分辨的泵浦-探测实验,实时跟踪光化学反应中分子结构的动态演变。随着激光源、探测器技术和数据分析管道的进一步发展,该方法可扩展到更大的分子系统,为研究复杂化学反应中的结构动力学提供新视角。
该研究的创新性在于将多离子符合探测的实验能力与机器学习的分析能力有机结合,解决了CEI技术在应用多原子分子时面临的核心挑战。通过提供背景自由的高维数据和自动化的分析框架,该方法为超快结构动力学研究开辟了新途径,特别是在解析混合反应路径、检测弱通道和少数物种方面具有独特优势。这一技术平台有望在化学动力学、材料科学和药物研发等领域产生广泛影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号