《Nature Methods》:DECODE: deep learning-based common deconvolution framework for various omics data
编辑推荐:
当前的多组学研究因不同组学层缺乏统一的反卷积方法而面临系统性偏差和流程碎片化的瓶颈。为了解决这一难题,研究人员开发了DECODE——一个适用于细胞类型和细胞状态的通用深度学习反卷积框架。该框架可无缝应用于转录组、蛋白质组和代谢组数据,在多种挑战性场景下均超越了现有最优方法,并首次实现了对代谢组数据的有效反卷积。这项发表于《Nature Methods》的研究为整合多组学队列数据、在细胞层面进行深入分析提供了强大且统一的工具,是精准医学和多组学研究领域的重要进展。
在生命科学研究的宏伟画卷中,理解复杂组织中各类细胞的构成与动态变化,犹如解开一幅精细的拼图,是洞悉器官发育、疾病机制和治疗响应的关键。细胞丰度,即各类细胞在组织中的比例分布,正是这幅拼图的核心信息。然而,直接描绘这幅拼图的金标准——单细胞测序技术,却因其高昂的成本和对样本处理的严苛要求,难以在大型队列研究中广泛铺开。于是,科学家们发展出了“反卷积”这项强大的计算技术,它能够利用已知的、有限的单细胞数据作为“图样”,从混合的组织水平数据中“反推”出各类细胞的比例,从而经济高效地探究大规模样本中的细胞异质性。
理想很丰满,但现实却充满了挑战。目前的多组学反卷积领域,呈现出一种“各自为政”的割裂状态。在转录组层面,MuSiC、CIBERSORTx等方法表现出色;在空间转录组学,RCTD、SPOTlight各擅胜场;在蛋白质组学,则有scpDeconv等专门工具。这些工具在各自的领域内固然有效,但它们大多基于特定组学数据(如转录组)的分布假设(如泊松或负二项分布)而设计,将其应用于其他组学数据时效果存疑,更遑论在代谢组学领域,至今仍缺乏专门的反卷积工具。这种“一种组学,一种方法”的现状,带来了两大棘手难题:首先,当研究者希望比较不同组学层、不同队列间的细胞丰度时,方法学的异质性会引入难以量化的系统偏差,损害整合分析的可信度;其次,多组学研究需要进行大量的跨方法参数调整和结果校准,导致工作流程碎片化,增加了分析复杂度和时间成本。更值得注意的是,代谢组学数据在所有组学类型中与临床表型的相关性最高,却因可检测特征数量少、不同细胞类型间代谢特征相似度高,而成为反卷积的“无人区”。这些挑战共同构成了大规模多组学研究可扩展性的重要技术瓶颈。因此,开发一个能够适应不同组学模态多样化数据特征的统一计算框架,成为推动精准医学目标前进的关键一步。
为此,研究人员在《Nature Methods》上发表了他们的解决方案:DECODE。这是一个适用于转录组、蛋白质组和代谢组数据的通用反卷积框架,能够对细胞类型和细胞状态进行反卷积,并在细胞水平上无缝整合跨组学的组织数据集。
为开展这项研究,作者构建了一个包含四个阶段的精密计算框架。第一阶段,从单细胞数据中随机抽样生成用于模型训练的“伪组织”样本。第二阶段,通过对抗性训练来消除伪组织数据与目标组织数据之间的批次效应。第三阶段,通过对比学习策略增强特征并去噪,使用基于注意力机制的降噪模块分离噪声特征与纯化特征。第四阶段,根据目标组织是否包含未知细胞类型,选择不同的推理路径输出细胞丰度向量。研究使用了来自人类、小鼠的多个公开数据集,涵盖了转录组、蛋白质组、代谢组和空间转录组学数据,构建了包括跨供体、跨疾病状态、跨健康状态、跨数据集、空间转录组、多细胞类型以及真实组织数据在内的七种评估场景,并将DECODE与包括TAPE、CIBERSORTx、MuSiC、scpDeconv、Scaden、RCTD、SPOTlight等在内的十余种前沿反卷积方法进行了全面比较,评估指标包括Lin‘s一致性相关系数、均方根误差和皮尔逊相关系数。
研究结果
DECODE框架概述
DECODE框架整合了对抗训练和对比学习技术。其核心流程分为四阶段:生成训练数据、对抗性去除批次效应、对比学习增强特征与去噪、以及双路径推理。特别是在第三阶段,框架引入了一个基于注意力机制的降噪器,能够从添加了噪声的输入中分离出纯净的组织特征和噪声特征,并通过对比学习损失进行优化,从而提升了模型处理各种噪声和不同组学数据的鲁棒性。
在转录组和蛋白质组反卷积中优于以往方法
在涵盖七种不同挑战性场景的15个数据集测试中,DECODE在跨供体、跨疾病、跨健康状态、跨数据集、空间转录组以及多细胞类型反卷积任务中,均表现出优异且稳定的性能,在绝大多数指标上领先于其他组学专用或空间专用的方法。例如,在空间转录组学数据上,DECODE的预测结果与真实细胞类型的空间分布高度吻合。在真实组织数据上,DECODE也展现了强大的竞争力。同时,在峰值内存使用和运行时间方面,DECODE也表现出合理的效率。这些比较表明,DECODE是目前针对转录组学和蛋白质组学最有效的反卷积方法之一。
准确稳定的代谢组学反卷积
DECODE填补了代谢组学反卷积的工具空白。研究使用了来自小鼠肝脏、小鼠骨髓和人结直肠癌的三个单细胞代谢组学数据集进行测试。尽管代谢组学数据存在可检测特征少、细胞类型间特征相似度高等独特挑战,DECODE仍能准确估计细胞比例。在与其他方法的比较中,DECODE在绝大多数指标上明显优于其他方法,其预测点紧密分布在1:1线附近,而其他方法则对特征较弱的细胞类型表现出识别困难。这证明了DECODE在捕捉细胞间微弱代谢信号差异方面的能力。
在三种组学数据集上实现准确的细胞状态反卷积
除了细胞类型,DECODE还能准确反卷积与伪时间轨迹、细胞周期阶段和药物响应时间点相关的细胞状态。研究使用了单核细胞伪时间数据集、跨细胞类型的细胞周期蛋白质组数据集以及黑色素瘤细胞药物处理多组学数据集进行评估。DECODE在所有数据集上均取得了最佳性能,证明了其恢复与伪时间轨迹、细胞分裂周期以及环境变化诱导的细胞状态变化相关的细胞状态丰度的能力。
在不完整的单细胞参考下实现精确反卷积
在实际应用中,单细胞参考数据可能无法完全覆盖组织中存在的所有细胞类型。DECODE通过第三阶段的降噪器和对比学习,能够分离噪声,从而在一定程度上处理这种不匹配的情况。研究人员通过逐步在测试数据中引入未知细胞类型,并施加三种类型的扰动,系统评估了DECODE的鲁棒性。结果表明,DECODE在大多数比较中优于其他方法,尤其是在代谢组学数据上,其他方法基本失效,而DECODE仍能给出可用的结果。尽管在某些转录组和蛋白质组场景中,Scaden、scpDeconv等方法在稳定性上可与DECODE媲美甚至更低,但DECODE在整体反卷积精度上仍保持领先。
在不同组学数据集间具有高度一致性
使用同一批外周血单核细胞的CITE-seq数据生成的转录组和蛋白质组伪队列进行评估,DECODE在两个组学上的反卷积结果高度一致,且性能显著优于其他方法。样本间预测的KL散度低而斯皮尔曼相关系数高,表明DECODE能为跨组学队列整合提供一致、可靠的细胞丰度估计。
应用于真实多组学队列的分析
研究人员将DECODE应用于整合后的乳腺癌多组学队列(转录组+蛋白质组,238个样本)和小鼠肝脏多组学队列(转录组+蛋白质组+代谢组,285个样本)分析。在乳腺癌中,DECODE揭示了非转移性原位癌、转移性原位癌和脑转移灶之间显著的细胞组成差异,例如非转移性肿瘤中T细胞和周血管样细胞富集,而B细胞在转移性病变中增加,这与已知的免疫生物学知识相符。在小鼠肝脏队列中,DECODE的反卷积结果在不同组学间高度一致,且与领域共识(如肝细胞约占70%)吻合。分析显示,在非酒精性脂肪性肝炎和西方饮食加酒精模型中,库普弗细胞显著增加,提示炎症反应加剧;肝细胞丰度在非酒精性脂肪性肝炎中显著降低,而在单纯高脂饮食中略有增加。这些发现验证了DECODE在多组学队列研究中揭示细胞比例变化的强大能力。
研究结论与意义
DECODE是一个能够处理转录组、蛋白质组和代谢组数据的反卷积算法,填补了代谢组学反卷积的关键空白,是多组学数据分析的一个重要里程碑。其通用性源于多个设计:第二阶段通过迁移对抗训练来对齐不同平台、健康状态和样本类型的多样组学数据,有效去除多种情况下的批次效应;第三阶段结合对比学习和自注意力机制,校正组织样本中的测量偏差,并协调组织数据与单细胞参考之间的扰动,从而能够从噪声输入中重建纯化特征。这些模块共同赋予了DECODE强大的鲁棒性,使其能够恢复细胞类型和细胞状态,即使是代谢组学中细胞间细微的差异也能捕捉。在CITE-seq伪队列上的实验进一步证明了DECODE跨组学性能的一致性。
通过将DECODE应用于多组学队列数据,研究揭示了乳腺癌不同阶段细胞类型比例的显著变化,以及小鼠肝脏在不同饮食模型下细胞组成的变化,这些发现与已有研究相互印证,说明了DECODE在连接转化研究与临床应用方面的潜力。尽管DECODE存在一些局限性,例如训练时需要生成人工噪声细胞带来额外计算成本,以及当前单细胞代谢组学数据集规模有限可能限制其全面评估和应用,但它仍是一个用于估计三种组学数据上细胞类型和状态比例的有效工具。DECODE提供了一个广泛适用的框架,能够充分利用现有的大量多组学组织水平数据,为推进生物医学研究提供了新的见解和方法。未来工作可以通过增加专用空间模块以更好地利用空间转录组学数据,并将其扩展到更多组学层,来进一步提升DECODE的适应性和应用范围。