
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature子刊:六种CNV检出工具的性能评估
【字体: 大 中 小 】 时间:2025年10月10日 来源:Nature Communications 15.7
编辑推荐:
为填补这一空白,德国慕尼黑大学领导的研究团队对六种主流的scRNA-seq CNV检测工具进行了全面基准测试,并将结果发表在《Nature Communications》杂志上。
拷贝数变异(CNV),也就是基因组区域的增加或缺失,与疾病发生(尤其是癌症)密切相关。单细胞技术的突破性进展为捕捉样本内CNV异质性以及鉴定与肿瘤进展相关的亚克隆提供了全新视角。
尽管目前已开发出多种从单细胞RNA测序数据中推断CNV的计算工具,但缺乏独立的性能评估体系使得研究人员难以选择合适的方法,这严重阻碍了CNV在癌症生物学中的功能研究。
为填补这一空白,德国慕尼黑大学领导的研究团队对六种主流的scRNA-seq CNV检测工具进行了全面基准测试,并将结果发表在《Nature Communications》杂志上。
研究人员采用21个scRNA-seq数据集,通过多维度指标评估各方法在CNV识别、二倍体细胞鉴定和亚克隆结构解析等方面的性能。这些数据集涵盖不同技术平台(液滴法与平板法)和物种(人类与小鼠)。
此次研究评估了六种专门为scRNA-seq数据设计的CNV检测方法,这些方法可分为两类:仅使用表达水平的InferCNV、copyKat、SCEVAN和CONICSmat;以及整合表达值与次要等位基因频率(AF)信息的CaSpER和Numbat。这些方法在输出格式、分辨率和算法策略上存在显著差异。
在15个人类癌症液滴数据集测试中,Numbat (Expr)、copyKat和InferCNV (Expr)表现出最高的最大F1分数(0.59-0.57)。研究发现性能差异与数据集特性密切相关:细胞数量、表达基因数和测序覆盖度与性能正相关,而dropout率和基因组畸变比例与性能负相关。所有方法对严格定义的局灶性CNV(focal CNV)检测灵敏度均较低。
扩展到平板技术和小鼠数据的测试表明,表达型方法在不同平台和物种间保持稳定性能,而基于AF的方法(CaSpER和Numbat)在平板数据中因SNP数量不足而性能下降。
二倍体样本测试显示,当使用相同细胞类型参考时,所有方法均能较好地识别二倍体基因组。但参考数据集选择不当会显著降低性能,其中Numbat (CNV)在所有测试场景中均能准确识别完全二倍体基因组。
此外,参考数据集的选择会对癌症样本的CNV检测产生重要影响。研究表明,使用相同样本中的二倍体细胞作为参考可获得最佳性能,而外部参考或自身携带CNV的细胞类型作为参考会显著降低预测可靠性。
肿瘤细胞识别的测试表明,Numbat在所有数据集中达到95%以上的准确率,而copyKat和SCEVAN的性能随二倍体细胞比例变化而波动。自动参考识别功能虽能减少人工注释负担,但在二倍体细胞稀少时可能失效。
在亚克隆识别测试中,copyKat、InferCNV和Numbat能有效区分不同供体的CNV谱,而CaSpER、CONICSmat和SCEVAN在混合样本中未能成功区分克隆结构。
研究结论强调,没有一种方法在所有场景中表现最优,方法选择应基于具体研究需求。数据集质量(细胞数量、测序深度、dropout率)对性能的影响远大于算法选择本身。
整合等位基因信息的方法(Numbat和CaSpER)在二倍体识别方面表现突出但计算成本较高;而纯表达型方法(copyKat和InferCNV)在标准癌症数据集中表现稳定且计算高效。
此外,研究人员还发布了标准化评估流程(https://github.com/colomemaria/benchmark_scrnaseq_cnv_callers),让用户能够直接测试新数据集,以确定最优的CNV检测策略,而开发者也能以此来测试新方法的性能。
生物通微信公众号
知名企业招聘