《Journal of the American Society for Mass Spectrometry》:UHRMS Formula Assignment: Diophantine-Based Recalibration Yields Lorentzian Mass Error Distribution as the Limiting Factor
编辑推荐:
本综述创新性地提出了一种基于丢番图方程(Diophantine equations)的分子式指认算法,用于超高分辨质谱(UHRMS)数据分析。该方法通过系统考虑所有在质量误差范围内的可能指认,生成对称的误差分布模式,从而有效区分并校正系统性质谱误差(如校准偏差),最终揭示仪器固有的、符合傅里叶变换仪器理论预期的洛伦兹型随机质量误差分布。此方法为复杂混合物(如生命起源前汤剂)的非靶向分析提供了接近理论极限的、统计一致性高的分子式指认新策略。
引言
超高分辨质谱(UHRMS),通常指分辨能力超过100,000的质谱技术,主要基于傅里叶变换离子回旋共振(FT-ICR-MS)或傅里叶变换轨道阱(FT-Orbitrap-MS)技术。它是表征来自环境、生物体、合成化合物、医药产品以及石油工业等多种来源的复杂化学混合物的强大分析工具。然而,尽管仪器技术水平很高,对复杂样品的非靶向分析中的谱图解读仍然充满挑战。现有分子式指认方法存在对数据库完整性和正确性的依赖,或面临组合爆炸问题。不正确的校准仍然是导致指认错误的重要因素,其来源包括空间电荷效应、离子云相互作用导致的峰合并等。此外,离子在阱中的有限停留时间等物理限制导致时域信号指数衰减,经傅里叶变换后在频域产生洛伦兹峰形,这直接对应于理论上的误差分布。
背景:丢番图方程
丢番图方程是一类要求整数解的方程,为分子式指认提供了天然框架,因为每个测量到的名义质量(其精确质量的整数部分)必须等于组成原子物种的名义质量的整数倍之和。分子式指认问题可以表述为求解丢番图方程,其中M是检测到的名义质量,ni是原子物种i的整数计数,Mi是其名义质量。该方程的一个特解可以通过将名义质量M除以碳的质量(12)得到碳计数,余数作为氢计数来轻松获得。所有产生名义质量M的解都可以通过一个特解加上齐次丢番图方程的解得到。这些齐次解构成一个具有整数系数的向量空间,其基向量的名义质量为零,但精确质量不为零。目标是为测量质量MM与特解精确质量M(CnCHnH)之间的质量偏差ΔM,找到满足在一定误差容限δ内的齐次解基向量的整数系数线性组合。
计算细节
为了加速计算,算法首先生成一个齐次丢番图方程解的库,即低质量分子碎片(LMMs)库,该库包含碳、氢、氧、氮、硫、磷元素,并设定了各元素数量的上限。同位素对检测是分子指认的关键步骤,本方法主要针对碳同位素,过程包括设置搜索区间、进行肯德里克质量缺陷(KMD)分析以及相对强度分析。为了筛选化学上合理的分子式,算法应用了“七黄金法则”中的六条,包括限制元素计数、符合路易斯(LEWIS)和西尼尔(SENIOR)规则、验证多同位素模式、评估氢碳比、氮氧磷硫与氢的比率以及检查高概率的多元素碳比。整个算法的流程包括参数初始化、同位素过滤将输入质量列表分为成对和未成对子集,两者分别进行丢番图指认,生成的候选分子式经过六条黄金规则过滤,化学上合理的分子式被存储输出。
方法
计算在配备Linux操作系统的个人电脑上完成,使用内部编写的Python程序。分析的数据集包括Green和Perdue提供的合成数据集(质量范围限制在150-500 Da)以及实验数据集。实验数据来自一个生命起源前的汤剂样品,使用配备7 T超导磁体的布鲁克Solarix FTICR质谱仪,通过电喷雾电离(ESI)进行直接进样分析。为了模拟真实情况,对合成数据集添加了高斯质量误差并进行了去校准处理。
结果与讨论
对完美校准的合成数据集的分析显示,所有在±1 ppm范围内的可能指认的质量偏差随m/z变化呈现出独特、规则、几乎对称的线状模式,正确指认位于基线(零偏差)。每条线对应于通过加减特定LMM得到的一类化合物。当存在高斯随机质量误差时,该模式的清晰度会降低,但对称性得以保持。随着质量误差的增加,正确指认目标列表中化合物的百分比下降,但在0.86 ppm的高误差下,仍有约66%的化合物被正确识别。同位素对的正确识别率随误差增加而显著下降,但通过调整同位素搜索窗口和放松KMD精度可以改善识别效果。对于去校准的数据集,指认模式会整体偏离基线,显示出系统性误差。将该方法应用于真实的预生物汤剂的FT-ICR-MS数据时,初始数据的指认模式未与基线对齐。通过使用内标校准物进行重新校准后,模式与基线对齐,对称性改善。重新校准后数据质量偏差的自相关函数显示系统性偏差减少,随机性增加。重新校准后质量偏差的分布直方图与洛伦兹分布拟合更好,这与FT质谱仪在长瞬变时间下的理论预期一致,其半高全宽(HWHM)超过了0.2 ppm。
结论
本研究提出了一种基于线性丢番图方程和低质量分子碎片(LMMs)的、对质谱数据进行分子式指认的组合新方法。通过考察给定精度内所有化学上合理的可能指认的集合,并将质量偏差作为m/z的函数绘制出来,在完美校准的数据集中会产生对称的线状模式。这种对称性源于作为齐次丢番图方程通解的低质量分子碎片。该对称性被用于重新校准数据,重新校准后产生了符合仪器物理限制的洛伦兹质量误差谱,这一定量信息对于以一致的方法实现可预测的正确指认可能性至关重要。同时,该方法也为优化仪器设置提供了有效工具。