基于非靶向数据挖掘策略从LC-HRMS数据中提取化学暴露组特征及其在胎粪早期生命暴露评估中的应用
【字体:
大
中
小
】
时间:2025年10月07日
来源:Analytica Chimica Acta 6
编辑推荐:
本研究针对非靶向LC-HRMS数据分析中难以有效识别外源性化学物质的挑战,开发了一种集成同位素特征富集(ISE)、生物转化特征筛选和“暴露率”指标的数据挖掘新策略。该策略应用于EDEN队列胎粪样本,实现了特征数量六倍缩减,显著提高了卤代化合物及代谢物特征的识别效率,为早期生命化学暴露组研究提供了创新性方法支撑。
在当今社会,人类暴露于复杂的环境化学物质中,这些暴露尤其在生命早期阶段可能对健康产生深远影响。暴露组学(Exposome)研究旨在全面评估一生中所有环境暴露,而化学暴露组(Chemical Exposome)则聚焦于通过环境、食物和药物接触的化学物质。尽管液相色谱-高分辨质谱(LC-HRMS)技术能够生成海量数据,但从复杂数据集中识别有意义的外源性暴露标志物仍面临巨大挑战。传统靶向方法只能检测已知化合物,而非靶向代谢组学方法虽能提供更全面的视角,却未专门针对外源性化学物质进行优化。数据复杂性、化合物代谢转化以及个体间代谢差异等因素,使得在生物样本中准确识别暴露标记物变得尤为困难。
为了应对这些挑战,研究人员开发了一种创新的非靶向数据挖掘策略,专门用于从LC-HRMS数据中提取外源性化学特征。这项研究以胎粪作为生物基质,因为胎粪能够反映胎儿在子宫内的暴露情况,为评估产前化学暴露提供了独特窗口。研究成果发表在《Analytica Chimica Acta》上,为暴露组学研究提供了新的方法论支持。
研究团队主要采用了以下关键技术方法:基于同位素特征富集(ISE)的数据过滤技术,包括碳同位素(12C/13C)和卤素同位素(如79Br/81Br、35Cl/37Cl)模式识别;生物转化特征筛选方法,针对常见的代谢转化途径(如葡萄糖醛酸化、硫酸化、谷胱甘肽结合);暴露率指标计算,反映特征在样本中的检测频率;化学式预测算法结合七黄金规则(Seven Golden Rules);以及质量缺陷(MD)图谱可视化分析。研究数据来自法国EDEN出生队列的308份胎粪样本。
3.1. LC-HRMS数据复杂性在MD图谱中的体现
研究人员首先通过质量缺陷图谱展示了胎粪LC-HRMS数据的复杂性。单个胎粪样本中检测到超过19,000个特征,而在308个样本的综合数据集中则识别出超过155,000个特征。质量缺陷图谱揭示了有机化合物的分布特征,其中烷烃化合物的MD值随着m/z值增加而增加,这主要归因于氢原子的累积贡献。研究还观察到接近零的负质量缺陷特征,可能对应于钠、钾加合物或多卤代化合物。多重带电物种(如肽类)也通过特征性同位素模式得到识别。
通过数据清洗策略(包括空白过滤、碳同位素ISE和样本检测阈值),特征数量从155,047个减少到25,276个,实现了六倍的缩减。应用暴露率指标后,发现低检测频率(<25%)的特征占主导地位,可能反映了化学暴露组的多样性。高检测频率(>50%)的特征主要集中在特定MD区域,很可能对应于内源性化合物或普遍存在的环境异生素。
应用单卤素ISE后,从25,000多个特征中筛选出约1,000个疑似单卤代物种,其中单氯化物种占比近四分之三。约50%的疑似单卤代物种在超过半数样本中被检测到,反映了对这些卤代化合物的广泛暴露。代代谢物过滤器识别出5,017个特征,包括2,342个非结合物种和2,675个推定代谢物。葡萄糖醛酸结合物最为丰富(1,700个特征),其次是硫酸化(933个特征)和谷胱甘肽结合物(42个特征)。还检测到324个葡萄糖醛酸-硫酸双重结合物。
化学式预测算法结合ISE数据后,显著减少了候选化学式的数量。以m/z 331.1566的单氯化物种为例,十个候选化学式经筛选后剩下四个合理候选,其中C19H24ClN2O被推定为羟基氯米帕明(抗抑郁药氯米帕明的代谢物)。研究确认了164个特征的注释,其中大部分为内源性代谢物,但也包括对乙酰氨基酚、咖啡因和尼古丁等常见外源性物质标记物。这些标记物的检测频率与孕妇中报告的暴露水平一致:对乙酰氨基酚68%(文献67%)、咖啡因100%(文献81%)、尼古丁11%(文献16%)。通过MS/MS分析验证了81个特征的身份,包括对乙酰氨基酚及其葡萄糖醛酸结合物。对乙酰氨基酚葡萄糖醛酸结合物(m/z 328.1028)在43.5%的样本中检测到,而其源内碎片离子(m/z 152.0708)在64%的样本中检测到,反映了结合物的部分分解。
研究结论与讨论部分强调,这种数据挖掘策略显著提高了LC-HRMS数据集中特征识别的可靠性,特别是通过12C/13C同位素模式验证的有机化合物。特异性过滤技术能够检测到卤代物种和结合代谢物的分子特征特征。特征检测频率是区分内源性化合物、普遍存在的外源性物质以及罕见个体特异性暴露的有价值指标。整合ISE信息提高了化学式确定的准确性。研究结果支持通过胎粪分析检测子宫内异生素暴露(如对乙酰氨基酚、尼古丁和咖啡因),检测频率与文献和队列特定数据一致。这些发现突出了胎粪作为评估围产期暴露基质的价值。
然而,化合物的明确识别,特别是那些与特异性化学特征相关的化合物,仍然是一个重大挑战。实现1级识别置信度需要通过光谱数据分析、与真实标准品比较和专家解读进行深入的结构解析。超高分辨率质谱通过利用同位素精细结构为更准确地确定未知化合物的元素组成提供了有前景的途径。
该研究开发的策略不仅适用于暴露组学研究,还有望应用于其他领域如代谢组学研究。所有开发的脚本可根据合理要求从作者处获取,但由于伦理和法律限制,基础数据不能自由提供,需通过向队列科学委员会提出合理请求来共享。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号