
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞RNA测序数据中拷贝数变异推断方法的性能评估与临床应用价值
【字体: 大 中 小 】 时间:2025年06月05日 来源:Precision Clinical Medicine 5.1
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)技术在肿瘤异质性研究中拷贝数变异(CNV)推断方法缺乏系统评估的问题,通过多中心基准测试对HoneyBADGER、CopyKAT等五种scCNV算法进行全面评估。研究发现CopyKAT和CaSpER在敏感性和特异性方面表现最优,而inferCNV和CopyKAT在亚群识别中准确性最高,但批次效应显著影响多平台数据分析结果。该研究为肿瘤单细胞基因组学研究提供了重要方法学指导。
在肿瘤研究领域,遗传异质性一直是困扰科学家的难题。无论是肿瘤间还是肿瘤内部,细胞间的遗传差异都可能导致治疗抵抗和复发。拷贝数变异(CNV)作为重要的遗传变异类型,能够通过扩增癌基因或灭活抑癌基因影响肿瘤发生发展。随着单细胞RNA测序(scRNA-seq)技术的快速发展,研究人员已经开发出HoneyBADGER、inferCNV等多种从scRNA-seq数据推断CNV(scCNV)的方法,为在单细胞水平整合遗传和转录组信息提供了可能。然而,这些方法的准确性和可靠性尚未得到系统评估,不同测序平台、测序深度和数据分析流程对结果的影响也缺乏深入研究。
为了解决这些问题,来自洛马琳达大学等多个机构的研究人员开展了一项大规模的基准测试研究。研究团队首先利用来自多中心基准研究的乳腺癌细胞系(HCC1395)和匹配的正常B淋巴细胞系(HCC1395BL)的scRNA-seq数据,评估了五种常用scCNV推断方法在四种不同测序平台(10x Genomics、Fluidigm C1等)上的表现。随后使用混合肺腺癌细胞系数据集评估了这些方法在肿瘤亚群识别中的准确性,最后通过临床小细胞肺癌(SCLC)样本验证研究结果。相关成果发表在《Precision Clinical Medicine》杂志上。
研究采用了多项关键技术方法:1)利用多平台scRNA-seq数据(包括全长转录本和3'端标记技术)进行方法学比较;2)基于全基因组测序(WGS)确定的CNV作为金标准;3)采用混合肺腺癌细胞系模拟肿瘤亚群;4)整合临床SCLC样本的单细胞RNA测序(20M reads/细胞)和单细胞全外显子测序(scWES)数据;5)使用调整兰德指数(ARI)等多种统计指标进行定量评估。
在"敏感性(sensitivity)和特异性(specificity)评估"部分,研究团队以79个高度复发的CNV(34个扩增和45个缺失)作为基准,发现CaSpER和CopyKAT在四种scRNA-seq平台上表现最优。特别是在CNV扩增检测中,CopyKAT展现出更高的敏感性,而CaSpER在CNV缺失检测中表现更稳定。通过受试者工作特征(ROC)曲线分析证实,这两种方法在除Fluidigm C1-HT外的平台上都具有良好性能。
关于"参考数据集的影响",研究发现使用scRNA-seq参考数据时所有方法表现最佳。当使用GTEx数据库的bulk RNA-seq数据作为参考时,大多数方法的敏感性显著下降。值得注意的是,CopyKAT在10x平台数据上表现尤为突出,这可能与其开发过程中主要使用该平台数据有关。
在"测序读长和深度的影响"方面,研究揭示了有趣的现象:CaSpER的性能受读长和深度影响显著,而CopyKAT则相对稳定。进一步分析发现,这种差异源于CaSpER对B等位基因频率(BAF)文件的敏感性,不同测序参数下BAF信号谱的变化会显著影响CNV检测结果。
在"亚群识别准确性"评估中,研究使用包含3-5种肺腺癌细胞系的混合样本测试发现,inferCNV和CopyKAT在单平台数据上表现最佳。但当整合多平台数据时,除HoneyBADGER外的方法都受到批次效应的严重影响。应用ComBat等批次校正方法可以显著改善inferCNV和CopyKAT的性能。
针对"罕见亚群检测",研究通过设计不同比例的稀有细胞亚群实验发现,inferCNV在总细胞数超过500时能检测到1%的稀有亚群,而其他方法需要至少5%的比例。这表明检测灵敏度不仅取决于亚群比例,还与绝对细胞数量相关。
最后,在"临床SCLC数据验证"部分,研究证实了基准测试的主要结论:CaSpER和CopyKAT在原发性肿瘤样本中展现出良好的敏感性和特异性,而inferCNV和CopyKAT能准确区分原发和复发肿瘤细胞群体。
这项研究系统评估了当前主流scCNV推断方法的优缺点,为肿瘤单细胞研究提供了重要的方法学指导。研究揭示了测序平台选择、参考数据集、批次效应等因素对分析结果的关键影响,特别强调了在临床样本分析中整合多组学数据的重要性。这些发现不仅有助于研究人员选择合适的数据分析策略,也为未来开发更稳健的scCNV推断算法指明了方向。值得注意的是,该研究提出的评估框架和方法也可推广应用于其他单细胞组学数据分析工具的基准测试。
生物通微信公众号
知名企业招聘