单细胞Hi-C嵌入工具全面性能评估揭示三维基因组异质性分析新策略

【字体: 时间:2025年10月15日 来源:Nature Communications 15.7

编辑推荐:

  本刊推荐:为解决单细胞Hi-C数据分析中嵌入工具性能不明确的问题,研究人员对13种嵌入工具(包括新开发的卷积神经网络模型Va3DE)在10个scHi-C数据集上进行了系统性评估。研究发现不同生物场景需要特定数据表示方法,深度学习工具在低深度和高分辨率数据中表现优异,多模态整合是区分相似细胞亚群的有效策略。该研究为三维基因组异质性分析提供了重要方法学指导。

在生物医学研究领域,三维基因组结构在远端基因调控中发挥着关键作用,表征不同细胞类型和生物状态下染色质空间构象一直是研究人员关注的重点。随着染色质构象捕获技术的发展,特别是单细胞Hi-C(scHi-C)技术的出现,使得在单细胞水平解析三维基因组架构成为可能。然而,scHi-C数据分析面临着严峻的计算挑战——如何在克服严重数据稀疏性的同时捕捉细胞状态特异性的基因组结构特征。
目前,多种维度缩减技术包括深度表征学习方法已被应用于scHi-C数据嵌入分析,但已发表的流程在推荐分辨率、数据表示和预处理程序方面存在显著差异。这些设置已知会偏好不同尺度的三维基因组特征,从低分辨率到高分辨率分析可揭示多层次的多尺度三维基因组特征,包括区室(>1Mb分辨率)、拓扑关联结构域(TADs)(约50kb分辨率)和染色质环(kb分辨率)。由于细胞状态的变化可能涉及不同尺度的基因组结构改变,单一分辨率的嵌入流程难以适用于所有应用场景。
为解决这一问题,Case Western Reserve大学的研究团队在《Nature Communications》上发表了题为"A comprehensive benchmark of single-cell Hi-C embedding tools"的研究论文。该研究通过构建统一的软件框架,对13种嵌入工具在10个scHi-C数据集上的性能进行了系统性评估,包括新开发的卷积神经网络模型Va3DE,该模型能够适应大细胞数量的分析需求。
研究人员开发了名为SCORE(Single-cell Chromatin Organization Representation and Embedding)的软件包,将预处理选项与嵌入算法解耦,从而全面比较每个流程允许的所有"混合匹配"选项。评估指标主要包括调整兰德指数(ARI)、标准化互信息(NMI)和细胞类型平均轮廓分数(ASW),并通过计算累积AvgBIO分数(ARI、NMI和ASW指标的平均值)来综合评估嵌入性能。
关键技术方法包括:使用10个已发表的scHi-C数据集(6个小鼠数据集和4个人类数据集)覆盖早期胚胎发生、复杂组织、细胞周期和合成细胞系混合等主要生物场景;开发SCORE软件框架统一评估13种嵌入工具;通过降采样分析评估工具在低测序深度下的鲁棒性;采用多分辨率(1Mb、500kb、200kb)分析比较性能差异;利用Harmony进行多模态数据整合分析。
研究结果:
嵌入工具在不同类型应用中表现各异
评估结果显示,两种深度学习方法(Higashi和Va3DE)得分最高,其次是SnapATAC2,后者具有相当的性能但计算负担要小得多。三种其他"传统"方法(Fast-Higashi、InnerProduct和scHiCluster)在大多数应用中也表现出稳定的性能。基准数据集之间的难度水平和偏好分辨率存在差异:HiRES和CARE-seq数据难以嵌入;人类脑图谱数据的ARI分数低于其他两个复杂组织数据集;合成混合数据集偏好1Mb的最低分辨率;胚胎发生数据集也显示出对低分辨率的偏好,而细胞周期和复杂组织数据集偏好500kb或200kb的更高分辨率。
早期胚胎发生和复杂组织数据偏好不同的环大小进行嵌入
研究发现,卵母细胞到受精卵的转变和植入前胚胎数据集对许多流程都具有挑战性。有趣的是,在这些数据集上通常可以在1Mb或500kb的低分辨率下获得最高分数。进一步分析表明,分离卵母细胞和受精卵细胞核需要>2Mb的长距离接触,而仅使用>2Mb的接触就可以实现细胞群体的良好分离。相反,人类前额叶皮层和小鼠海马数据集都依赖短距离接触获得最佳嵌入效果。当仅使用<2Mb的接触时,可以获得最佳ARI,包含>2Mb的接触仍然可以区分非神经元细胞类型,但不能分离神经元亚型。
短距离接触可以区分G1-S细胞周期阶段(除M期外)
应用InnerProduct和其他几种工具可以在细胞周期数据中生成圆形模式。研究发现,使用短距离(<200kb,<2Mb效果稍差)相互作用进行嵌入时,会抑制有丝分裂细胞,仅显示G1-S阶段的圆形模式;包含更长范围的相互作用会模糊G1-S阶段之间的区别,但会分离少量有丝分裂细胞。这与原始scHi-C研究一致,即G1到S期的转变特征是局部接触(<2Mb)比例增加和有丝分裂接触(>2Mb,<12Mb)比例减少。
随机游走和IDF变换均偏向长距离接触
ScHiCluster最初设计并在卵母细胞/受精卵数据集上进行了基准测试,其中随机游走被证明可以改善嵌入效果。研究人员证实,scHiCluster在两个早期胚胎发生数据集上表现最佳。随机游走将Hi-C数据视为无向图,并倾向于对代表大型相互作用邻域(如TAD和区室结构)的密集连接节点进行边填充。从scHiCluster中移除随机游走会显著损害两个早期胚胎发生数据集的嵌入效果。SnapATAC2是一种在大多数基准数据集上表现良好的顶级工具,它执行显式特征选择(默认500,000个最强接触),然后使用逆文档频率(IDF)变换进行归一化。IDF通过给予较少细胞独有的特征更高权重来改善嵌入效果。
深度学习工具需要更少的读数来识别多尺度基因组架构
基准测试发现,Higashi和Va3DE是在多个应用中表现最好的两种方法,表明深度学习工具可以识别短距离和长距离的不同生物学先验。当读取深度降低时,会向接触矩阵引入更多随机噪声。由于神经元亚型之间的差异要细微得多,它们更容易被稀疏噪声掩盖。深度学习工具更能容忍低深度,并且在识别短距离和长距离基因组结构特征方面也更通用。
深度学习工具更好地支持高分辨率嵌入
高分辨率嵌入对于复杂组织分析是可取的,因为高度相似的细胞群体或细胞状态可能仅涉及局部染色质相互作用的细微变化。然而,提高Hi-C分辨率也会加剧数据稀疏性并降低嵌入性能。评估结果显示,随着分辨率提高,Va3DE在整体ARI和神经元亚型ARI方面都显示出显著改进,特别是从200kb到100kb的改进尤为明显,表明高分辨率嵌入对于解析高度相似的细胞亚群非常有帮助。然而,提高分辨率并不会显著改善"传统"工具的整体性能。
多模态整合最佳地嵌入高度相似的细胞群体
嵌入复杂组织中高度相似的细胞群体(如脑组织中的神经元亚型)仍然具有挑战性,因为嵌入工具越来越难以从越来越大和嘈杂的接触矩阵中识别特定的高分辨率相互作用。一种解决方案是开发共检测技术来生成多模态数据,包括scHi-C和DNA甲基化或转录谱。研究表明,使用独立的人类脑scRNA-seq数据集通过scGAD基因评分矩阵进行对角线整合,可以将神经元ARI从0.51显著提高到0.82,高于迄今为止测试的任何其他工具。
研究结论与讨论:
本研究对多种单细胞Hi-C嵌入工具在不同应用中的性能进行了全面评估,并深入分析了某些方法在特定生物背景下优于其他方法的原因。研究结果阐明了不同细胞状态或细胞群体在单细胞水平上的主要变异特征,发现长距离相互作用标记了早期胚胎发生的各个阶段,而短距离(<2Mb)接触对于表征复杂组织中更相似的细胞群体是必需的。在细胞周期方面,虽然有丝分裂细胞需要长距离相互作用进行嵌入,但G1、早期、中期和晚期S期只能通过短距离接触来区分。
研究强调了预处理操作需要谨慎进行的重要性,特别是scHiCluster中的随机游走强调了区室尺度结构但平滑了短距离异质性,而SnapATAC2中的IDF变换由于长距离接触随着数据稀疏性增加而获得更多权重,因此也存在距离偏差。这些见解将帮助用户在嵌入新的scHi-C数据集时,在选择正确的工具或设置方面做出明智的决策。
深度学习流程的主要优势在于多功能性和低读取深度下的鲁棒性。当细胞数量不太高(如<10K细胞)时,建议从500kb分辨率开始使用深度学习工具来获得最佳结果,除非研究想要专注于高度相似的细胞亚群。当生物学先验不明确或平均读取深度较低时,也首选深度学习方法。然而,当细胞数量较高时,使用传统方法将有利于提高效率。特别推荐SnapATAC2(在500kb分辨率下),因为它在所有传统工具中排名最高,并在所有基准数据集上显示出稳健的性能。
对于高分辨率嵌入(200kb或更好)以解析细胞亚群之间的细微差异,建议使用Higashi或Va3DE。值得注意的是,Va3DE被推至100kb分辨率,并在最大的人类脑图谱数据集中实现了神经元亚型的最佳嵌入。最后,仅使用scHi-C数据可能无法实现高度相似的细胞群体或状态的聚类分析。受scGAD的鼓舞,研究人员认为使用独立的scHi-C和scRNA-seq数据进行多组学"对角线"整合将是一个非常有用的方向。
这项研究不仅强调了适当先验对于scHi-C嵌入的重要性,还为基因组结构异质性分析提供了重要见解,为未来三维基因组学研究提供了方法论指导。随着更多scHi-C数据集的收集和新协议的提出,本基准的某些结论应进一步测试,以为更多scHi-C应用找到最佳数据表示形式。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号