色谱选择性对化学空间可测性及液相色谱-高分辨质谱全面分析覆盖度的制约:化学空间中的盲域

《Chemical Communications》:Chemical space blind spots: how chromatographic selectivity dictates chemical measurability and coverage of LC-HRMS comprehensive analysis

【字体: 时间:2026年06月14日 来源:Chemical Communications 4.2

编辑推荐:

  液相色谱-高分辨质谱(LC-HRMS)通过全面精确测量复杂样品中各组分的质荷比(m/z),实现了广泛的化学检测;然而,分析方法的设计限制了化学空间的可测性。研究人员对236种方法及超过75,000个已测化合物进行的荟萃分析揭示了分析方法强烈趋同于反相色谱分离,

  
液相色谱-高分辨质谱(LC-HRMS)通过全面精确测量复杂样品中各组分的质荷比(m/z),实现了广泛的化学检测;然而,分析方法的设计限制了化学空间的可测性。研究人员对236种方法及超过75,000个已测化合物进行的荟萃分析揭示了分析方法强烈趋同于反相色谱分离,这限制了样品化学多样性的覆盖范围。这种"可测性陷阱"缩小了可观测的化学空间,并可能导致许多环境和生物相关化合物的代表性不足。
化学空间(chemical space)是指从有机化学角度来看所有现存及可能的化学结构的广泛集合,也包括与人类和环境暴露相关的化学物质。现代分析化学致力于对化学空间进行全面、广范围的探索,而液相色谱-高分辨质谱(LC-HRMS)已成为全面筛选方法(即非靶向分析,non-targeted analysis)的基石,原则上能够同时检测环境和生物样品中数千种(已知和未知的)化合物。虽然该方法常被认为无偏倚,但LC-HRMS实际可达的化学空间本质上受分析方法设计的制约,这限制了可测性的扩展,从而限制了新结构发现率的提升。特别是,色谱选择性(chromatographic selectivity)——由已知分析物(分析标准品)与固定相和流动相的相互作用所定义——是LC-HRMS分析中驱动可测性的主要因素。只有在给定实验条件下成功保留、高效离子化并最终被检测到的化合物,才定义了可测化学空间。尽管非靶向分析倾向于采用通用的流动相条件——如宽泛的浅梯度洗脱程序和对改性剂的有限使用以最大化峰容量(分离域中常超过1000个化学特征)——但与固定相的相互作用不可避免地产生选择性。因此,可测性在不同LC-HRMS方法间存在差异,系统地优先检测某些化学类别而非其他类别。

虽然高分辨质谱采集能在单次分析中记录数千个信号,但只有这些特征中的一部分反映了在所选色谱条件下有效保留和检测的化合物,因而携带了有意义的化学信息。这种选择性-可测性偏倚可能造成分析全面性的虚假印象(即一种可测性"陷阱"),在非专业终端用户中尤为如此,尽管存在潜在的物理化学限制,这对暴露评估具有重要影响。为清晰传达在全面捕获化学空间时LC的实际权衡,研究人员对存储小分子方法和保留时间信息的大型数据仓库(RepoRT)进行了荟萃分析,该仓库包含暴露相关化学物质和代谢物。RepoRT目前涵盖438个方法条目和超过17,083个独特化合物,这些化合物在49种不同的LC固定相及变化的流动相条件下(如洗脱液组合、改性剂和流速)进行测量,数据来源于公开数据集和同行评审研究。重要的是,许多报告的化学物质是通过使用真实参考标准品以靶向方式测量的,为多样化的LC设置提供了可靠的色谱信息。因此,在不相容固定相上保留不佳的化合物(如糖类和有机酸)与使用替代分离方法成功保留的数据一同被报告。此类数据集代表性地定义了可达化学空间的实际边界:靶向方法可以探查可测性的极端情况,而非靶向覆盖度则取决于方法选择性下的有效保留。为系统研究LC中的化学空间覆盖度,必须同时考虑分析方法的可变性及被测化合物的物理化学多样性。据此,从RepoRT汇编的集合被组织为两个互补的数据集:一个描述同质且可比较的LC仪器配置(即精炼的方法元数据,n=236),另一个捕获在这些分析方法下保留的分析物的化学描述符(保留时间条目,n=78,226)。这些数据集共同反映了方法设计和化学性质如何联合定义可观测的化学空间,尽管它们并不能代表所有理论上可实现的选择性模式和化合物。

方法元数据报告了八种不同的柱化学类型,按USP代码分类。L1(C18)在数据集中占主导地位,占所有设置的78%(n=186),其次是L122和L11(各约8%;n=19和18)。所有其余柱类型单独仅占约1-2%。这一分布证实了RepoRT中反相液相色谱(RPLC)选择性的显著优势。C18、苯基、C8和五氟苯基相共同占89%的设置,保留主要由疏水相互作用支配,使可测化学空间偏向中等极性和非极性化合物(分配系数(X log P)在-1至6之间)。仅11%的方法采用亲水相互作用色谱(HILIC)固定相(裸硅胶、两性离子和烷基酰胺),表明极性和高极性分析物的保留数据代表性不足。操作参数也表现出高度趋同,通常使用100-150 mm色谱柱、标准超高效液相色谱(UHPLC)流速(0.2-0.4 mL min-1),以及含0.1%甲酸的水相/有机梯度。这种同质性强化了对RPLC兼容化合物的系统性偏倚。这也反映在所报告方法的目标范围中,90.3%的设置报告的分析物少于500个,尽管寻求更高的理论单次运行容量。

这表明当前方法的统一性使大部分理论峰容量和化学空间未被利用。然而,仔细观察超过78,000个已测化合物的分布揭示了一个出乎意料的趋势。鉴于RepoRT主要报告小分子(平均精确质量312 Da),大多数化合物在各方法间的X log P范围在极性和非极性结构之间(-10 < X log P < 10)呈现出出乎意料的均匀分布。那么,在 predominantly 反相条件下,如此大比例的极性和亲水性化合物是如何被捕获的呢?对RepoRT中 frequently 分析的代表性子集的检查显示,几种高极性分子——如己糖(X log P = -2.6)、甘露醇(X log P = -3.1)和奎宁酸(X log P = -2.4)——在RPLC设置下被报告为保留。此类观察可能代表靶向分析的应用,以及非靶向方案中对早期洗脱特征排除不足或遗漏的情况。尽管如此,应用死体积阈值过滤保留不良的物种显著降低了RPLC对极性化合物的表观覆盖度。这些分析物在RPLC数据集中的存在表明,反相领域的非靶向化学覆盖度容易被高估,尽管HILIC是保留这些高极性化合物的更稳健方法。虽然此类保留数据对定义方法边界具有价值,但从非靶向角度看,在死体积中洗脱或发生穿透的未知化合物不太可能得到可靠检测,因为保留不良导致低质量、嘈杂的质谱信号和有限的发现潜力。

为探索方法与化学覆盖度之间的关系,两个RepoRT数据集通过主成分分析(PCA)进行了分析。基于RPLC和HILIC的设置在主成分得分图上形成了两个不同的聚类,由中等解释方差(31.1%)描述。这一趋势与前三个成分的总贡献一致,主要由固定相类型驱动,C18与两性离子柱沿PC1以及基于苯基的RPLC沿PC3呈现清晰分离。粒径和流速进一步贡献于分离,较大粒径与HILIC相关,较高流速与UHPLC条件下的RPLC相关。PC2主要受洗脱液组成影响,区分了使用酸性水相和强有机改性剂(如乙腈)的RPLC。K-means聚类和质心相似性热图被用于解释驱动这种有限分离的变量。聚类1(n=19)主要包括L122柱和HILIC特异性洗脱液。聚类2(n=209)证实了占主导地位的RPLC组,包括C18、C8和苯基相,并显示出较宽的内部变异性(低质心相似性)。聚类3-5由替代固定相、非常规有机改性剂(如异丙醇、丙酮)和不同缓冲体系(甲酸铵或磷酸盐)的使用所区分。

各方法报告的化合物突显了RepoRT所代表化学空间的绝大多数由RPLC主导。HILIC化合物占据部分不同但高度重叠的区域,表明两种模式主要捕获相似的物理化学领域。大部分化学变异性沿PC1捕获(65.5%),该成分正相关于精确质量的增加与产生极性相互作用的位点增加(酸碱描述符和拓扑极性表面积(TPSA)),但与X log P负相关。这证实了此前在RPLC条件下不现实的化学覆盖度的论证。PC2(26.85%)进一步通过捕获精确质量和X log P的联合变化来细化这一分布,但它并未实质性地解决RPLC和HILIC化学空间重叠的问题。这种趋同可能反映了方法学限制,如宽梯度HILIC方法有限的灵活性(即可调节的保留行为较弱),导致对相同物理化学区域的重复采样而非真正的正交扩展可测性。归一化保留时间对X log P和TPSA的关系图提供了对这些限制的更好视角,显示HILIC捕获了大部分半极性和中等疏水性化合物,在中心极性域内与RPLC产生实质性重叠。这描绘了HILIC如何常被作为RPLC的互补"反转"(即切换流动相组成)来实施,而未能充分利用其独特的分离机制。

两种选择性模式集中于中间描述符空间,而非扩展可测性。精确质量分布强化了这一模式:RPLC跨越广泛的质量范围,包括>1000 Da的化合物,而HILIC largely 局限于1000 Da以下,无论极性如何。总体而言,RPLC和HILIC之间未观察到化学覆盖度的实质性扩展。原则上,HILIC预期会将可测性转向高极性化学物质;然而,如此显著的位移并不明显,部分原因是由于方法报告的不平衡、优化HILIC数据的有限代表性,以及可用分析标准品的偏倚也促成了这一趋势。

为将精选LC方法覆盖的化学空间置于背景下,RepoRT化合物被投影到相同的物理化学描述符空间中,与美国环保署(EPA)CompTox化学仪表板(约80万种化学物质,代表暴露组化学空间的近似)进行比较。RepoRT化合物仅占更广泛CompTox化学空间的一个有限子区域。虽然中心PC区域存在大量重叠,但CompTox中表征为高极性(高TPSA和H键容量)、极端疏水性(高X log P)和非常大的分子量的广大区域仍然完全未被代表。假设RepoRT是化学LC-HRMS可测性的良好样本,则可检测化学空间并未覆盖最大样品多样性,而是导致受 poorly 开发选择性约束的投影。由于方法趋同,分析反复捕获化学空间中 well 表征的区域,而其他区域仍然基本不可达。尽管RPLC与HILIC的结合常被提议作为增强正交性的策略,但该荟萃分析表明,在当前报告的方法中,这种扩展仍然有限。目前,HILIC的可用数据并未实质性将覆盖度向高极性域位移。虽然纳入额外的色谱模式(如超临界流体色谱(SFC)或离子色谱(IC))可以扩展化学空间覆盖度,但相对于庞大的理论化学宇宙,由此产生的增益仍然渐进,没有任何当前方法的组合能实现全面的可测性,这是由于以RP为中心的化合物变异性、平台间相关性偏倚以及此类正交多维工作流程的实施不兼容性所致。

这一约束不仅是物理化学的,也是方法学的:分析实践偏向于可用参考标准品确认的化合物。因此,报告的化学空间很大程度上反映了已知化合物,而定义可测性前沿的未知特征仍然代表性不足。与其追求不可靠的全面覆盖,不如将方法特异的可测性域明确界定和量化,并将化学空间覆盖度与灵敏度和质量精度一并作为关键性能指标(如通过预测分数覆盖度和绘制可测结构/物理化学性质边界)。未来的最佳实践应进一步优先考虑系统报告未知特征,以及开发持续更新的仓库以捕获当前已识别化合物之外的 evolving 暂定结构。只有通过记录既观察到又未观察到的内容,非靶向分析和暴露组学才能超越可测性陷阱,走向真正的探索性策略。这种以化学覆盖度为导向的色谱多样性扩展和仓库建设可能重新定义这些可测域,并改变当前LC-HRMS化学空间可达性中观察到的趋势。



该研究发表于《Chemical Communications》,通过大规模数据仓库RepoRT的荟萃分析揭示了LC-HRMS分析中存在的"可测性陷阱"问题。研究背景在于,尽管LC-HRMS技术理论上能够广泛检测化学物质,但分析方法的实际设计——特别是色谱选择性的选择——严重制约了可测化学空间的范围。当前研究领域存在的问题包括:方法设置高度趋同于反相色谱(RPLC),导致对极性和高极性化合物的系统性忽视;非靶向分析用户往往产生方法全面性的虚假认知;以及缺乏对方法实际覆盖边界的清晰界定。研究人员开展此项研究旨在量化这种选择性偏倚,明确当前LC-HRMS方法的实际可测边界,并为暴露组学等需要全面化学覆盖的领域提供方法改进方向。



研究人员用到的主要关键技术方法包括:基于公开数据集和同行评审文献编译的RepoRT数据库(涵盖438个方法条目和超过17,083个独特化合物);对精炼后的236个同质LC方法配置及78,226条保留时间记录的元分析;USP柱分类系统对固定相化学性质的归类;基于五种分子描述符(精确质量、X log P、氢键供体数、氢键受体数和拓扑极性表面积TPSA)的主成分分析(PCA);K-means聚类与质心相似性热图分析;以及将RepoRT数据与U.S. EPA CompTox Chemistry Dashboard(约80万化学物质)进行投影比较以对化学空间覆盖度进行情境化分析。



研究结论部分,研究人员明确指出:当前LC-HRMS方法学中对RPLC的过度依赖造成了可测化学空间的系统性收缩,形成一种"可测性陷阱",即用户感知的方法全面性与实际物理化学覆盖度之间存在错位。HILIC虽被作为RPLC的补充手段,但其在当前实践中的实施方式(如宽梯度条件)未能实现向高极性域的真正正交扩展,而是与RPLC产生了 substantial 重叠。通过将RepoRT数据与CompTox数据库比较,研究发现大量高极性、极端疏水性和大分子量区域完全未被覆盖。研究人员强调,必须将化学空间覆盖度确立为与灵敏度和质量精度并列的核心性能指标,并建立持续更新的未知特征报告机制,方能推动非靶向分析从受限的"可测性陷阱"走向真正的探索性分析策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号