
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DIATAGeR:基于数据非依赖采集(DIA)脂质组学中甘油三酯(TG)精准注释的创新R包及其在代谢性脂肪肝炎(MASH)研究中的应用
【字体: 大 中 小 】 时间:2025年09月25日 来源:Analytica Chimica Acta 6
编辑推荐:
本综述重点介绍DIATAGeR这一创新R包,它通过TG中心化(TG-centric)策略与目标-诱饵(target-decoy)模型,结合机器学习算法,有效解决了数据非依赖采集(DIA)脂质组学中甘油三酯(TG)因多重MS2谱图干扰而难以精准注释的难题,显著提升TG鉴定准确性与覆盖率。
DIATAGeR 采用以甘油三酯(TG)为中心的分析方法,结合逻辑回归机器学习算法与目标-诱饵(target-decoy)错误发现率(FDR)控制策略,显著提高数据非依赖采集(DIA)中TG鉴定的准确性与可靠性。
脂质在能量储存、细胞膜结构和信号传导等细胞功能中扮演关键角色。根据脂质代 metabolites 与通路策略(LIPID MAPS)所维护的最大公共脂质结构数据库(LMSD),脂质被划分为八大类别,甘油三酯(TGs)是其中最大的甘油脂亚类,主要作为能量储存的燃料来源。TGs 也是膳食脂肪的主要构成成分,其水平升高与血脂异常及代谢综合征密切相关。因此,对生物样本中TGs 的精准分析有助于深入理解代谢性疾病及其并发症的病理机制。
TGs 由三个脂肪酸链通过共价键连接至甘油骨架上构成。脂质组学标准倡议(LSI)联盟将“物种水平”(species level)鉴定定义为提供碳原子数与双键数(如 TG 54:2),而“分子物种水平”(molecular species level)则需明确具体脂肪酸组成(例如 TG 16:0_18:1_18:3)。由于TGs 可包含不同碳链长度与双键数目的脂肪酸,其可能存在的分子物种多达数千种,这为注释工作带来极大挑战。
在脂质组学常规分析中,TGs 通常通过数据依赖采集(DDA)或数据非依赖采集(DIA)质谱产生的碎片离子进行注释。DIA 虽然可提供更全面的MS2谱图覆盖、有利于低丰度脂质的检测,但其共碎裂(co-fragmentation)现象导致产生多重MS2谱图(multiplexed MS2 spectra),使得前体离子与碎片离子之间的直接对应关系被破坏,共洗脱物种所产生的共享碎片进一步增加了谱图解析的复杂性。这一挑战在分析TGs 时尤为突出,因大量同分异构体可能共同洗脱。传统以谱图为中心(spectrum-centric)的方法难以应对DIA中TG注释的复杂性。
近年来,DIA 策略在蛋白质组学中通过采用肽段中心化(peptide-centric)分析策略得以广泛应用——即从已知肽段数据库出发,在数据中检索其存在证据,并借助目标-诱饵策略计算错误发现率(FDR)以评估鉴定可靠性。本研究受此启发,开发了DIATAGeR这一R软件包,专门用于DIA脂质组学中TGs 的鉴定。该工具采用TG中心化策略,首先建立TG参考数据库,进而通过碎片谱图检索与机器学习打分,实现TG分子物种水平的高通量、高可信度注释。
DIATAGeR 通过整合TG中心化策略、目标-诱饵FDR估计以及机器学习评分模型,成功提升了DIA数据中TG注释的覆盖率和准确性。该工具支持厂商中立质谱数据格式,并允许用户自定义数据库,适用于复杂生物样本中的脂质组学研究。
生物通微信公众号
知名企业招聘