深度学习单细胞整合方法的生物保守性基准测试新框架
《Genome Biology》:Benchmarking deep learning methods for biologically conserved single-cell integration
【字体:
大
中
小
】
时间:2025年11月22日
来源:Genome Biology 9.4
编辑推荐:
为解决单细胞RNA测序(scRNA-seq)数据整合中批次效应去除与生物信息保存的平衡难题,研究人员开展了基于统一变分自编码器框架的深度学习整合方法基准测试研究。通过系统评估16种损失函数组合,揭示了现有scIB指标在评估细胞类型内生物信息保存方面的局限,并提出了相关性损失函数(Corr-MSE)和扩展的scIB-E评估框架。研究证实新方法能更好保存多层级生物变异,为复杂单细胞数据整合提供了更精准的评估工具。
随着单细胞RNA测序(scRNA-seq)技术的飞速发展,研究人员现在能够以前所未有的分辨率分析数百万个细胞的基因表达特征。这一技术进步催生了海量的单细胞数据,涵盖了不同物种、组织和发育阶段。然而,如何将来自不同实验、研究平台和时间点的数据有效整合,同时消除技术批次效应并保留关键的生物学信息,已成为当前单细胞数据分析面临的核心挑战。
在单细胞数据整合领域,深度学习方法的出现带来了新的希望。这些方法能够通过学习基因表达的生物保守表示来应对批次效应问题。特别是变分自编码器(VAE)等生成模型,如scVI(单细胞变分推断)和scANVI(单细胞注释变分推断),已显示出在处理大规模单细胞数据方面的强大能力。然而,尽管已有多种深度学习方法被开发用于单细胞整合,但针对不同损失函数设计及其对整合性能影响的系统基准测试仍然缺乏。同时,现有的单细胞整合基准测试(scIB)指标主要关注批次校正和基于细胞类型标签的生物保守性评估,未能充分捕捉无监督的细胞类型内生物变异信息。
为了填补这一空白,Yi等研究人员在《Genome Biology》上发表了他们的最新研究成果。他们开发了一个多层次的基准测试框架,系统评估了不同损失函数和正则化策略对单细胞数据整合效果的影响。研究团队基于统一的变分自编码器架构,设计了16种整合方法,涵盖三个不同层次:仅使用批次信息的批次效应去除、结合细胞类型标签的生物信息保存、以及同时利用两种信息的联合优化。
研究人员采用了多种单细胞RNA-seq数据集进行方法评估,包括免疫细胞数据集、胰腺细胞数据集和来自NeurIPS 2021竞赛的骨髓单核细胞(BMMC)数据集。通过系统的性能评估,他们发现不同层次的信息正则化强度对整合效果有显著影响。特别是,随着细胞类型信息正则化的增强,生物保守性评分逐步提高,但批次校正相关的PCR比较指数却呈现下降趋势。这一现象提示,现有的生物保守性评估指标可能无法充分捕捉细胞类型内的生物变异信息。
为了验证这一假设,研究团队利用了具有多层细胞注释的人肺细胞图谱(HLCA),该图谱包含从广泛细胞群体到最精细细胞亚群的五个注释层级。通过在较粗的细胞类型标签上训练模型,并在不同层级的注释上评估scIB指标,他们发现生物保守性指数在不同细胞层级间存在显著变化,证实了当前评估体系在捕捉细胞生物多样性方面的不足。
针对这一局限性,研究人员提出了相关性均方误差损失函数(Corr-MSE),该函数通过保持每个批次内单细胞在数据整合前后的相关性相似性,来维护细胞类型内的生物变异结构。同时,他们引入了扩展的scIB-E评估框架,该框架包含三个评估类别:批次校正、细胞类型间生物保守性和细胞类型内生物保守性。特别地,PCR比较批次指数和Jaccard指数被引入用于评估细胞类型内保守性。
在技术方法方面,研究主要基于变分自编码器框架,使用scVI和scANVI作为基础模型。通过整合多种损失函数设计,包括生成对抗网络(GAN)、希尔伯特-施密特独立性准则(HSIC)、正交投影损失(Orthog)、互信息最小化(MIM)、反向反向传播(RBP)、反向交叉熵(RCE)、细胞监督对比学习(CellSupcon)、不变风险最小化(IRM)、域元学习和域类三元组损失等。所有模型均使用PyTorch实现,并在NVIDIA A100 GPU上训练,采用Ray Tune框架进行超参数优化。评估数据集包括来自多个公共数据库的免疫细胞、胰腺细胞、骨髓单核细胞、人肺细胞图谱、人胎儿肺细胞图谱和人乳腺细胞图谱(HBCA)数据。
研究团队基于统一的变分自编码器框架,开发了16种单细胞数据整合方法,涵盖三个不同层次的信息利用策略。第一层次方法专注于使用批次标签去除批次效应,包括GAN、HSIC、Orthog、MIM、RBP和RCE等损失函数。第二层次方法结合已知细胞类型标签作为生物信息代理,确保不同批次的潜在嵌入保持生物学对齐,采用CellSupcon、IRM和域元学习等策略。第三层次方法同时利用批次和细胞类型信息,实现批次效应去除和生物保守的联合优化。
评估结果显示,与scVI基线相比,大多数第一层次方法表现出改进的批次校正指数,特别是RBP正则化方法。对于第二和第三层次方法,大多数方法相比scANVI基线获得了更高的生物保守性评分。值得注意的是,第三层次的域类三元组损失、RBP-CellSupcon和RCE-CE损失设计在批次校正和生物保守性方面均优于基线。此外,第二层次的IRM损失表现出强大的生物保守能力。这些发现突显了不同损失函数设计在单细胞数据整合中的重要作用,为方法选择提供了实证依据。
通过分析不同信息正则化水平的影响,研究人员发现信息正则化强度在单细胞数据整合中起着关键作用,同时影响scIB指标的批次校正和生物保守性评分。通过应用不同超参数的CellSupcon损失函数,他们发现更强的细胞类型信息正则化与注释单细胞亚型在结果嵌入中更明显的分离相关。
详细分析显示,在生物保守性指标类别中,所有指数随着细胞类型信息正则化的增强而增加,表明更强的细胞类型正则化增强了生物保守性。在批次校正类别中,图连接性、iLISI和kBET评分部分改善,但主成分回归比较指数随着细胞类型信息正则化的增强而持续下降。这一发现提示,PCR比较批次指数可能与整合数据集中生物信息的保存呈负相关,表明过度校正可能导致生物信息的丢失。
针对现有生物保守性指标主要依赖预注释细胞类型标签的局限性,研究人员开发了相关性均方误差损失函数(Corr-MSE),旨在保持每个批次内单细胞在数据整合前后的相关性相似性。通过在多层级注释的肺细胞图谱上的验证,证实了这一损失函数能够增强细胞类型内生物变异的保存。
研究团队进一步引入了Jaccard指数,用于量化每个批次全局kNN图中单细胞在整合前后边缘连接的比例。通过改变CellSupcon和Corr-MSE损失的权重,实证结果表明增加Corr-MSE权重可增强细胞类型内生物保守性,同时约束侧重于局部细胞连接的批次校正指标。相比之下,增加CellSupcon权重主要改善细胞类型间信息的保守性。这一发现为平衡不同层次生物信息保存提供了重要见解。
基于对现有评估体系局限性的认识,研究人员开发了scIB-E扩展框架,该框架包含三个评估类别:批次校正、细胞类型间生物保守性和细胞类型内生物保守性。特别地,PCR比较批次指数和Jaccard指数被引入用于评估细胞类型内保守性。
通过比较不同方法在scIB-E各类别中的得分,研究人员发现域类三元组损失在有无Corr-MSE正则化的情况下均 consistently优于其他设计,而第二层次的IRM损失在较弱正则化下表现出显著性能优势。通过比较所有方法在有和无Corr-MSE正则化情况下的指数变化,他们证实这种正则化使细胞类型内生物保守性提高了6.61±5.49%,同时使批次校正指数略微降低-4.02±1.84%,对细胞类型间生物保守性无显著影响。总体而言,Corr-MSE正则化使scIB-E总指数提高了1.43±1.71%,表明该方法通过更好地保存全面生物变异来改善单细胞整合。
为了进一步评估优化后的单细胞整合方法在保存生物变异方面的性能,研究团队分析了来自人胎儿肺细胞图谱的多层注释单细胞数据集。通过比较scVI、scANVI和基于域类三元组损失的两种方法,发现结合Corr-MSE损失的DCT-Corr方法在保存细胞类型内和细胞类型间生物结构方面均优于基线scANVI。
对成纤维细胞和远端上皮细胞亚群的详细分析显示,scANVI和基线域类三元组损失等方法依赖于粗细胞标签作为生物约束,限制了它们保存细胞类型内变异的能力。相比之下,scVI在发育轨迹保守性方面获得较高评分,而DCT-Corr方法在局部细胞表示学习方面表现出优越性能。这些发现突显了深度学习框架在单细胞整合中的多功能性,通过利用不同的损失设计,该框架有效平衡了全面生物变异保存和不需要信号的去除,实现了单细胞整合任务的最佳性能。
在复杂的人乳腺细胞图谱(HBCA)上的应用进一步验证了该框架的生物学发现能力。该图谱绘制了跨越年龄、生育史和高风险BRCA1/2种系突变的细胞生态系统。研究团队应用表现最佳的DCT-Corr损失函数与两种基线方法进行比较,所有模型均使用处理日期作为批次协变量进行训练。
差异丰度分析结果显示,DCT-Corr整合在解析上皮细胞内部细微细胞群体变化方面表现出卓越的敏感性。在衰老背景下,DCT-Corr准确捕捉了激素感应腔状细胞群体LHS2和LHS3的显著变化,与原始研究结论一致。在生育史分析中,虽然所有方法都识别了BMYO1的富集和LASP4细胞的减少,但DCT-Corr独特地揭示了LHS2亚群中更明显的失调。这一发现表明LHS2细胞在与生育相关的广泛组织重塑中具有先前未被充分认识的作用。
此外,DCT-Corr提供了对不同细胞区室之间复杂相互作用的更全面视角。在高风险BRCA1携带者中,该模型不仅识别了CD8 Tc1和CD8 Trm免疫细胞的富集,还强力共同突出了BMYO2和LHS1上皮种群内的显著反应。类似地,在BRCA2突变驱动的变化分析中,该模型有效捕捉了关键的跨区室信号:上皮LHS2亚群的减少和基质VEAT群体的同时富集。
本研究引入的多层次基准测试框架为单细胞数据整合提供了系统性的评估方法。通过利用统一的深度学习架构,研究团队全面评估了不同损失函数和正则化策略对整合结果的影响。这项工作通过提供驱动模型性能组件的模块化分析,扩展了基础性基准测试研究。研究结果证明,有针对性的损失函数对于实现批次效应去除和生物信号保存之间的最佳平衡至关重要。
该研究的一个重要贡献在于强调了评估细胞类型内生物保守性的重要性,这是现有方法的局限性所在。通过引入相关性损失函数和扩展的评估框架,研究团队解决了单细胞整合中平衡技术变异去除与生物异质性保存的核心挑战。研究结果表明,整合方法的性能关键取决于所应用的信息正则化程度,过强的正则化可能损害细胞类型内信息并导致过度校正。
在人类乳腺细胞图谱上的应用证实,改进的整合方法能够直接转化为复杂多条件单细胞数据集中生物学发现能力的增强。差异丰度分析显示,DCT-Corr整合在解析上皮细胞内部细微群体变化方面具有卓越敏感性,能够识别先前未被充分认识的细胞群体动态变化,为组织重塑机制提供了更精细的生物学见解。
这项研究开发的评估框架和优化方法为处理日益复杂的多模态和时空单细胞数据提供了重要工具。未来工作可将这些框架扩展到其他单细胞模态或实验因素,进一步增强真实生物学洞察的提取能力。总体而言,这项研究强调了灵活深度学习框架和精心设计损失函数在推动单细胞数据分析边界方面的价值,为促进更深层次生物学洞察的高质量单细胞图谱创建做出了贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号