基于非靶向质谱数据的化学特征向量描绘自然生物群落化学空间

【字体: 时间:2025年05月27日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  为解决非靶向代谢组学注释率低(<10%)的问题,研究人员利用从质谱数据预测的分子指纹(MFP)或化合物类别(CC)构成的化学特征向量(CCV)开展研究,发现其可区分生物群落特征化合物类,增强数据解读,具量化和推广价值。

  
在探索自然生物群落的化学奥秘时,科学家面临着一个棘手的难题:非靶向代谢组学虽能全面描绘生物群落的化学空间,但其注释率极低,不足 10%。大量的 “化学暗物质”—— 未被识别的化合物,如同隐藏在迷雾中的宝藏,阻碍着对不同生物群落化学特征的深入理解。如何在不依赖完整结构注释的情况下,实现样本间的有效比较,成为代谢组学领域亟待突破的关键挑战。

为攻克这一难题,德国耶拿大学(Friedrich Schiller University)的研究人员开展了一项富有创新性的研究。他们开发了化学特征向量(Chemical Characteristics Vectors, CCVs)方法,利用质谱数据预测的分子指纹(Molecular Fingerprints, MFPs)和化合物类别(Compound Classes, CCs),对样本中的化合物化学特性进行量化描述。这项研究成果发表在《Journal of Cheminformatics》上,为解读非靶向代谢组学数据开辟了新路径。

研究主要采用了以下关键技术方法:

  1. 数据来源:基于地球微生物组计划(EMP)的 572 个样本,涵盖 11 个生物群落(如动物肠道、土壤、水等)的非靶向代谢组学 LC-HRMS 数据。
  2. 特征预测:通过 SIRIUS 软件结合 CSI:FingerID 和 CANOPUS 工具,从 LC-MS/MS 数据中预测 MFPs 和 CCs,将概率值转化为二进制特征(阈值 0.5)。
  3. 数据标准化:对样本内的化学特征进行平均化处理,生成 CCVs,同时按前体 m/z 值(100-900)将峰分组后再平均,提升特征分辨率。
  4. 统计分析:运用主成分分析(PCA)、均匀流形近似与投影(UMAP)等降维技术可视化样本差异,并通过递归特征消除(RFE)筛选关键特征,结合随机森林(RF)、k - 近邻(kNN)等机器学习算法评估分类性能。

研究结果


1. CCVs 有效捕捉生物群落化学差异


通过 PCA 和 UMAP 分析发现,CCVs 能有效区分不同生物群落。例如,醚类化合物在水、土壤等环境群落中富集(占比 25%-33%),而类固醇、胆汁酸等在动物相关群落中更为突出(动物肠道类固醇占比达 12%)。相较于传统的 MS1 强度数据,CCVs 的主成分 1(PC1)可解释超 50% 的方差,显示出更强的化学特征表征能力。机器学习分类结果表明,基于 CCVs 的模型在预测生物群落时具有较高准确性(kNN 准确率超 96%),且分子指纹(MFP)性能优于化合物类别(CC),突显了结构特征的重要性。

2. 生物群落内的化学异质性与关键特征


部分生物群落内部存在显著差异。如动物远端肠道样本分为两组:一组富含有机杂环化合物和苯甲酰衍生物(来自圈养鸟类、哺乳动物粪便),另一组则以有机氮化合物和脂肪酰胺为主(来自野生啮齿类等粪便)。珊瑚分泌物样本中,不同地理来源的物种表现出烷基芳基醚与脂质类化合物的差异。通过特征选择发现,严格筛选特征(rfe2)虽减少信息冗余,但过度过滤会降低分类性能,表明保留适度特征多样性的重要性。

3. 化学特征与分子质量的关联


按 m/z 分组分析显示,醚类化合物在高分子质量组(>550 m/z)占比更高,而单糖磷酸酯和甘油磷酸酯主要存在于中高质量组(>250 m/z)。植物残体中的 prenol 脂质在高质量组(>450 m/z)富集,氨基酸则在中质量组(450-550 m/z)更为突出。这种质量依赖性分布为解析化合物结构与功能提供了新维度。

结论与意义


本研究开发的 CCVs 方法无需完整化合物注释,即可通过化学特征量化实现生物群落化学空间的比较,显著提升了非靶向代谢组学数据的可解释性。研究不仅揭示了不同生物群落的特征化学类群(如环境群落的醚类、动物群落的类固醇),还为解析群落内化学异质性提供了工具。此外,CCVs 的无对齐特性使其适用于跨研究数据比较,为环境监测、微生物组 - 代谢组关联研究等领域开辟了新方向。未来,结合多组学数据,CCVs 有望进一步推动微生物功能与代谢特征的关联研究,助力解开 “化学暗物质” 的神秘面纱。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号