
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scTsI:基于双阶段插补策略的高效单细胞转录组数据填补算法及其在细胞异质性研究中的应用
【字体: 大 中 小 】 时间:2025年06月29日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
厦门大学研究团队针对单细胞RNA测序(scRNA-seq)数据中的"零值丢失"(dropout)问题,开发了新型双阶段插补算法scTsI。该方法通过K近邻(KNN)初步填补后,结合批量RNA-seq数据约束进行岭回归(ridge regression)优化,在保持高表达值不变的同时显著提升数据质量。实验证明该算法在高达70%丢失率下仍能准确恢复基因表达,并显著改善细胞聚类(clustering)和轨迹推断(trajectory inference)等下游分析效果。
在生命科学研究的微观世界里,单细胞RNA测序(scRNA-seq)技术如同高倍显微镜,让科学家们得以观察每个细胞的独特基因表达特征。这项革命性技术揭示了细胞群体中隐藏的异质性,为发育生物学和疾病机制研究开辟了新途径。然而技术本身存在一个恼人的缺陷——"零值丢失"(dropout)现象,即本应检测到的基因因技术噪音或测序深度不足而显示为零值。这种数据缺失如同显微镜上的污点,严重干扰着后续的数据解读。
现有解决方案各具局限:平滑类方法如DrImpute和MAGIC会改变高表达值;模型类方法如scImpute在高度丢失率下表现欠佳;而深度学习类方法则因"黑箱"特性缺乏解释性。更棘手的是,当丢失率超过60%时,多数方法的性能急剧下降,这使得研究高异质性细胞群体时面临巨大挑战。
厦门大学自动化系的研究团队在《Briefings in Bioinformatics》发表的研究中,提出了创新性的双阶段插补算法scTsI。该方法首先通过K近邻(KNN)整合相邻细胞和基因信息进行初步填补,随后将表达矩阵转换为向量并通过岭回归结合批量RNA-seq数据进行精细调整。这种独特设计既保留了原始高表达值,又通过向量变换专门处理零值区域,有效避免了新噪声的引入。
关键技术包括:1)基于Splatter包生成不同维度和丢失率的模拟数据集;2)KNN双维度(细胞和基因)邻近信息整合;3)矩阵向量化转换与行变换技术;4)glmnet包实现的岭回归优化;5)使用t-SNE降维和Monocle2轨迹推断等下游分析方法验证效果。
【scTsI恢复基因表达水平】
研究团队在模拟数据集上系统评估了基因表达恢复能力。如图2所示,在3000×1000维度、60%丢失率(实际零值率86%)的极端条件下,scTsI与SCRABBLE的皮尔逊相关系数(PCC)仍接近1,显著优于其他方法。通过保留高表达值不变的设计,该方法将均方根误差(RMSE)控制在最低水平,证明其能准确区分技术噪音与真实生物学信号。
【scTsI维持细胞间相似性】
细胞关系网络的保持是单细胞分析的关键。如图3A所示,scTsI在不同丢失率下均能完美保持原始细胞相似性(PCC≈1)。t-SNE可视化显示(图3B),在1000×3000维度、60%丢失率数据中,该方法能清晰区分三个细胞簇,效果与真实数据最为接近。在真实数据集sc_10x中(图3C),scTsI准确识别了三种肺癌细胞系,避免了其他方法将H1975细胞系错误分裂的问题。
【scTsI提升细胞聚类性能】
通过调整兰德指数(ARI)和标准化互信息(NMI)评估聚类效果。图4显示,在五种模拟数据集中,scTsI与SCRABBLE表现最优且稳定。特别在3000×1000和5000×1000维度数据中,scTsI显著领先。真实数据测试进一步证实,scTsI在sc_10x、sc_celseq2等数据集上的聚类准确率均优于对比方法,解决了SCRABBLE在真实数据中过度平滑的问题。
【scTsI促进细胞轨迹推断】
使用Monocle2分析五个混合RNA数据集时,scTsI重建的发育轨迹最接近生物学真实(图5A-B)。定量评估显示(图5C),在相关性(correlation)、重叠度(overlap)和正确排序百分比(percentage)三项指标上,该方法均保持领先。例如在RNAmix_celseq2数据中,scTsI准确呈现了H2228细胞系的发育时序,避免了其他方法产生的状态混杂或无序分支现象。
综合八项评估指标(图6)的配对t检验表明,scTsI在模拟和实验数据上均显著优于多数对比方法(P<0.001)。运行时间分析显示,该方法在保持精度的同时,计算效率显著高于VIPER和SCRABBLE等算法,适用于大规模数据分析。参数敏感性测试证实,默认设置(k1=k2=25,高表达阈值1-2%)在各类场景下均能取得稳定效果。
这项研究的重要意义在于:1)建立了首个通过向量变换实现选择性填补的算法框架,为高丢失率数据提供了可靠解决方案;2)创新性地整合单细胞与批量转录组数据,提高了填补的生物学相关性;3)通过严格的基准测试证明,该方法能同时优化表达恢复、细胞关系保持和下游分析等多个维度。未来通过整合空间转录组等新型数据,有望进一步提升单细胞数据分析的精度和深度,为精准医学研究提供更强大的工具支持。
生物通微信公众号
知名企业招聘