红外光谱学：通过整合模拟技术和机器学习，从实验光谱数据实现高分辨率的结构分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《The Journal of Physical Chemistry B》：IR Spectroscopy: From Experimental Spectra to High-Resolution Structural Analysis by Integrating Simulations and Machine Learning

【字体：大中小】 时间：2025年10月30日 来源：The Journal of Physical Chemistry B 2.9

编辑推荐：

　　生物大分子原子级功能解析需结合振动红外光谱、分子模拟与量子化学计算。本文通过N-甲基醋酰胺模型，对比MM、ML、QM/MM三种模拟方法与NMA、DMA两种光谱计算策略，验证传统前向问题求解流程在亚埃级结构解析中的有效性，并探讨机器学习在加速计算及逆问题（光谱-结构映射）中的潜力。实验表明QM/MM-NMA组合光谱最接近实验值，ML方法在指纹区表现欠佳，但可降低计算成本。该框架为神经退行性疾病相关异质聚合体结构解析提供新路径。

　　在生物分子功能的研究中，原子级别的理解对于揭示动态过程背后的结构变化至关重要。红外（IR）光谱技术，结合生物分子模拟和量子化学计算，能够精确测定键长变化，达到0.01 ?的分辨率，从而提供结构变化的深刻洞察。本文探讨了红外光谱的正向问题：即如何从已知的分子结构预测高精度的振动光谱。通过解决这一问题，可以为逆向问题打下基础，即如何从实验光谱直接推断出分子结构的集合。我们评估了两种计算方法——正常模式分析（NMA）和傅里叶变换的偶极自相关函数分析（DMA）——在实验IR光谱与模拟结果之间的匹配情况。研究对象为N-甲基乙酰胺（NMA），这是一种典型的肽键振动模型。通过使用不同层次的理论模型，包括混合量子力学/分子力学（QM/MM）、机器学习（ML）和经典分子力学（MM）方法，我们能够揭示当前理论生物物理方法在解码实验振动光谱数据中的能力与局限性。这些发现强调了未来人工智能（AI）增强模型在实现基于IR的直接结构测定方面的潜力，例如解决目前实验方法无法解析的有毒寡聚体结构，这些结构与神经退行性疾病如阿尔茨海默病和帕金森病密切相关，有望推动疾病诊断和靶向治疗的发展。

在生物分子领域，构象变化在许多细胞过程中起着核心作用。多年来，光谱方法一直是解析分子结构和动态变化的重要工具。例如，核磁共振（NMR）光谱可以提供原子级别的结构信息，而荧光共振能量转移（FRET）和圆二色光谱（CD）则分别用于探测距离和二级结构。相比之下，红外光谱以其对结构变化的高度敏感性和时间分辨率脱颖而出。红外光谱的一个关键优势在于，它能够分辨细微的结构变化，例如波数变化约1 cm?1对应键长变化约0.001 ?。虽然最初用于有机化合物的定性和定量分析，但红外光谱的高分辨率使其成为研究酶机制和活性位点动态的理想工具。通过探测酰胺I带，红外光谱能够区分α-螺旋和β-折叠等结构特征，并因此被广泛应用于生物传感器，用于诊断阿尔茨海默病或帕金森病等蛋白质病（proteinopathies）。

时间分辨傅里叶变换红外光谱（FTIR）的独特优势在于，它能够捕捉纳米秒至秒级的动态过程。然而，这种高灵敏度也带来了挑战：结构-功能关系的丰富信息隐藏在重叠且难以分配的振动带中。与NMR相比，红外光谱的解析更具挑战性。二维红外（2D-IR）光谱可以在一定程度上区分模式耦合，但需要飞秒激光，并且信噪比较低。因此，计算生物物理学，尤其是生物分子模拟和量子化学计算，对于将光谱可观测值转化为详细的结构模型和机制洞察至关重要。历史上，彼得·A·科尔曼（Peter A. Kollman）及其合作者在NMR光谱学领域开创了实验与理论相结合的先河，本文也以此为精神，致力于推动红外光谱学的进一步发展。

传统上，计算方法主要集中在解决正向问题，即从提出的结构预测红外光谱。这种过程通常需要人工参与，通过比较理论光谱与实验参考数据，逐步优化结构模型。为了生成光谱，需要两个步骤：一是通过模拟模型计算结构的轨迹，二是通过光谱模型从结构数据中计算光谱。根据所需的精度，可以采用不同的分子动力学（MD）方法，如从头算量子力学（QM）、QM/MM模拟或经典分子力学（MM）模拟。然后，通过两种主要技术生成光谱：第一种是正常模式分析（NMA），它从单个平衡结构的Hessian矩阵计算振动频率。第二种是通过MD模拟计算偶极自相关函数的傅里叶变换（FT），这种方法自然包含了构象异质性的影响。然而，与NMA相比，DMA在将光谱带分配到特定核运动方面更具挑战性。此外，确定同位素效应需要重复MD模拟，因为同位素替换会改变原子质量，从而影响动态和时间相关函数。因此，DMA通常只能生成一个未分配的光谱，尽管已有方法部分解决了这一问题。

除了加速正向问题，机器学习（ML）技术正在引入一种范式转变，尝试直接解决逆向问题，即从光谱预测分子结构。这一策略需要在结构-光谱数据集上进行训练，其中结构还编码了所有决定环境因素，如溶剂化、氢键网络、离子浓度和质子化状态（pH）。在实践中，可以通过结合实验验证的构象集合（如使用显式溶剂和离子的MD模拟，经NMR/SAXS/CD验证）与匹配的IR/2D-IR光谱，同时利用同位素标记生成特定位置的信息。尽管目前从单一IR光谱预测完整3D结构仍然是一个未解难题，但在简化任务如预测官能团或生成分子图方面已取得显著进展。通过整合互补数据，如NMR光谱，可以进一步提高预测精度。

本文探讨了机器学习如何推动红外光谱学成为一种分析分子结构和动态的方法，其地位可与NMR光谱学相媲美。为了评估这一潜力，我们比较了六种理论工作流程，结合两种计算方法（NMA和DMA）与三种模拟方法（经典MM、QM/MM和基于ML的势能模型），统称为MD模拟。我们将这些方法应用于N-甲基乙酰胺，这是一种常见的基准分子，用于模拟肽键，并且在溶液中存在两种主要构象：顺式（cis）和反式（trans）。通过将计算光谱与实验数据进行对比，我们提供了讨论每种模拟和计算方法优劣的基础。

为了评估不同方法对传统理论红外光谱学的适用性，我们采用了不同的模拟策略来生成动态构象集合。我们使用量子化学计算和MD模拟来评估这些方法生成高质量理论IR光谱的能力。整体工作流程如图2所示，包括以下步骤：首先，使用经典分子力学（MM）模拟对顺式和反式NMA的溶剂化起始结构进行平衡，然后从三个不同类型的生物分子模拟生产运行中提取IR光谱。接下来，我们详细介绍了模拟结构和提取计算理论IR光谱的方法。

我们通过模拟系统准备开始这一流程，使用MAXIMOBY（v. 2025）和GROMACS（v. 2024.1）软件包生成顺式和反式NMA的结构。首先，我们通过MAXIMOBY的Vedani算法添加了第一和第二溶剂壳层。为了防止由于周期性边界条件导致的自相互作用，我们将溶剂化簇放置在一个立方模拟单元中，最小填充距离为13 ?。这导致顺式和反式NMA的立方盒子边长分别为44 ?和42 ?。盒子随后被填充为包含2754和2549个水分子的体相水，使用GROMACS中的溶剂化策略。为了在第二溶剂壳层与体相水之间的过渡中解决空间冲突，我们在MAXIMOBY中对水的氢原子进行了能量优化，使用了Amber84联合原子力场和TIP3P水模型。最后，我们将TIP3P水模型转换为TIP4P模型，因为TIP4P与OPLS/AA力场配合使用时表现出更好的动态特性，因此用于后续模拟。

我们进行了两种MM模拟，分别用于顺式和反式NMA，如图2所示为两个宽的蓝色箭头。系统在1 ns的NVT平衡过程中被加热至293 K，使用1 fs的步长。温度控制采用速度重缩放热浴（velocity-rescaling thermostat），耦合常数为0.1 ps。加热过程分为两个阶段：首先，温度从0逐渐增加到100 K，持续时间为100 ps；随后，温度进一步增加至293 K，持续时间为900 ps。这一温度与实验测量的室温一致。平衡后，我们进行了10 ns的NPT模拟，使用1 fs的步长。温度耦合仍采用速度重缩放热浴（耦合常数0.1 ps），而压力耦合采用Berendsen压强计（耦合常数0.1 ps）以快速将密度放松到目标值。这些方案适合平衡，但不会生成严格正确的NPT。随后，我们进行了70 ns的NPT生产运行，使用2 fs的步长，采用Nosé-Hoover热浴（耦合常数0.5 ps）和Parrinello–Rahman压强计（耦合常数2.5 ps），以确保NPT的物理正确性。坐标和速度在无重新初始化的情况下传递。标准可观测值（T, P）和肽键二面角ω均未出现不连续性。为了允许2 fs的步长，我们对重原子-氢键进行了约束，采用LINCS算法。我们从每个生产运行中提取了代表性结构，用于后续的理论IR光谱计算。这些代表性结构如图3所示，分别用于顺式和反式NMA。

在MM模拟分析中，我们使用PyContact14和MAXIMOBY中的接触矩阵算法分析了NMA与水分子之间的相互作用。NMA除了顺式/反式异构化外，没有其他显著的内部自由度。因此，代表性结构由其与周围水分子的接触定义。我们每0.1 ns记录每个功能团与水分子形成氢键的数量。平均而言，顺式和反式NMA的羰基和酰胺功能团各结合约两个和一个水分子。这些数据在图3A和C中显示。尽管存在许多满足这些标准的结构，我们选择了相应模拟的最后一个几何结构作为后续理论IR光谱计算的起始结构。图3B和D展示了这些结构在时间上的接触分析。

为了评估传统理论红外光谱学方法，我们计算并测量了NMA的IR光谱，如图4所示。所有模拟方法均成功再现了实验中观察到的主要光谱特征，包括显著的酰胺I带、可检测的酰胺II带以及指纹区域的特征带。然而，存在一些细节上的偏差。首先，所有方法的相对带强度均与实验数据存在差异，特别是酰胺I/II比值的低估。此外，指纹区域的1450 cm?1附近的计算峰值始终是主要的，而实验数据中该带较弱。其余指纹带的宽度和强度也与实验数据存在差异。

其次，在酰胺区域的详细分析中，MM和QM/MM方法的酰胺I和II峰与实验数据非常一致，而基于ML的光谱则未能反映实验模式，因为酰胺II峰红移且吸收度较低。两种ML势能模型（ANI-2x和MACE-OFF23）的光谱形状相似，只有在峰位上存在细微差异。图4展示了使用ANI-2x的结果，而图S1和S2提供了两种ML势能模型的比较。

第三，指纹区域的峰数和位置与实验数据一致，但整体模式并未被任何方法完全再现，因为每个峰的吸收度和带宽与实验数据存在偏差。总的来说，基于MM和QM/MM的NMA计算的峰位与实验数据一致，但需要进一步优化以提高酰胺I和II的吸收度比值以及指纹区域的形状。QM/MM方法的结果略优于MM方法，而MM方法又优于基于ML的方法。MM和QM/MM方法的相似结果表明，OPLS/AA力场能够生成与QM/MM方法相近的构象集合，且QM/MM优化的快照足以捕捉关键光谱特征。

在DMA方法中，实验数据与MM和QM/MM方法的光谱最接近。然而，ML方法的光谱在指纹区域红移约300 cm?1，并且缺乏明确的峰模式。相比之下，MM方法能够再现实验中的三个峰，而QM/MM方法则在四个峰的位置上与实验数据最为接近，总体表现最佳，尽管仍存在偏差。这一结果表明，DMA方法对MD模拟的准确性高度依赖，而NMA方法则在峰位和形状上更稳定。

在所有方法中，基于QM/MM的NMA光谱与实验数据的匹配度最高，尽管仍需进一步优化，尤其是在指纹区域的峰模式上。这一发现表明，结合实验和计算的红外光谱学能够从测量数据中提取结构信息。红外光谱的高灵敏度使得结构模型的分辨率可达亚埃级别，但这一精度受限于计算方法的准确性。然而，由于计算结构预测与实验验证之间的迭代反馈循环既耗时又计算成本高昂，尤其是在处理多构象分子或较大蛋白质时，解决这一挑战变得尤为困难。尽管如此，解决这一问题对于解析目前传统结构生物学方法无法处理的异质聚集物结构至关重要，这些结构与神经退行性疾病密切相关。识别这些药物靶点将有助于未来诊断和靶向治疗的改进。

随着人工智能工具的最新进展，下一步是超越这些正向模型，开发能够直接从实验IR光谱推断结构信息的方法，即所谓的逆向问题。我们预计，机器学习将在这一领域发挥关键作用，尽管目前在该问题上的应用仍处于初级阶段，需要建立可靠模型、生成多样化的训练数据并整合化学知识。解决逆向问题将推动红外光谱学成为一种结构提供方法，即使在异质结构的情况下，也能提供结构和动态模型的亚埃分辨率。

综上所述，本文展示了当前计算生物物理学方法在解析实验IR光谱和区分分子构象（如顺式和反式NMA）方面的有效性。这证明了实验与计算红外光谱学的结合能够从测量数据中提取结构信息。红外光谱的高灵敏度使得结构模型的分辨率可达亚埃级别，但这一精度受限于计算方法的准确性。然而，由于计算结构预测与实验验证之间的迭代反馈循环既耗时又计算成本高昂，尤其是在处理多构象分子或较大蛋白质时，解决这一挑战变得尤为困难。尽管如此，解决这一问题对于解析目前传统结构生物学方法无法处理的异质聚集物结构至关重要，这些结构与神经退行性疾病密切相关。识别这些药物靶点将有助于未来诊断和靶向治疗的改进。

联系信箱：

粤ICP备09063491号

热点排行