RECODE平台实现单细胞数据全面降噪:跨组学整合分析的新突破

【字体: 时间:2025年09月20日 来源:Cell Reports Methods 4.5

编辑推荐:

  单细胞组学数据面临技术噪音和批次效应的双重挑战,传统方法难以兼顾。本研究升级RECODE平台,开发出可同时消除技术噪音与批次噪音的iRECODE算法,成功应用于转录组(scRNA-seq)、三维基因组(scHi-C)和空间转录组数据,显著提升稀有细胞识别和跨数据集比对精度,为多组学整合研究提供强大工具。

  

在生命科学领域,单细胞测序技术革命性地实现了在单个细胞水平解析基因组和表观基因组信息,为人类细胞图谱(Human Cell Atlas)等大型项目提供了关键技术支撑。然而,海量数据背后隐藏着两大技术瓶颈:一是由分子检测率不均导致的技术噪音(technical noise),特别是基因漏检(dropout)现象,使得真实生物信号被掩盖,难以识别肿瘤抑制事件等细微生物学现象;二是不同实验条件引入的批次效应(batch effects),导致跨数据集比较时出现非生物性偏差。虽然已有多种插补(imputation)和整合方法被开发,但传统方法通常依赖降维处理,无法同时解决两种噪音问题,且会丢失全维度基因信息。

针对这一挑战,京都大学研究者Yusuke Imoto在《Cell Reports Methods》发表了升级版RECODE(Resolution of the Curse of Dimensionality)平台研究。该研究通过高维统计方法,首次实现了在保留全维度数据的同时,同步消除技术噪音和批次效应,并将应用范围扩展到表观基因组和空间转录组数据,显著提升了数据分析的准确性和效率。

研究采用的核心技术方法包括:1)基于噪声方差稳定归一化(NVSN)和奇异值分解的降噪算法;2)整合Harmony等批次校正方法的iRECODE架构;3)Yata-Aoshima特征值修正理论提升精度;4)下采样学习(DL)加速技术。使用的数据涵盖10x Genomics多个平台、Drop-seq、Smart-seq等产生的scRNA-seq数据、sci-Hi-C表观基因组数据,以及Stereo-seq、Visium HD和Xenium空间转录组数据。

增强RECODE实现双噪音同步消除

研究人员开发了iRECODE算法,将RECODE的高维统计优势与批次校正方法相结合。通过先将数据映射到本质空间(essential space)进行噪音方差稳定化,再在该低维空间内执行批次校正,有效规避了高维计算中的精度损失问题。测试表明,搭配Harmony算法时整合效果最优,在保持细胞类型特异性(cLISI指标稳定)的同时,显著提升批次混合度(iLISI提高),并将基因表达相对误差从11.1-14.3%降至2.4-2.5%。

推动真实单细胞转录组分析

iRECODE在多个scRNA-seq技术平台(Drop-seq、Smart-seq、10x系列)均表现出色,不仅有效降低漏检率,还显著改善基因表达分布。特别对非看家基因(non-HKGs)方差调节能力突出,而对看家基因(HKGs)方差保持稳定,证实其能真实增强生物学信号而非引入偏差。计算效率方面,iRECODE比传统RECODE+Harmony组合提速约10倍,且呈现近似线性的规模扩展性。

RECODE在表观基因组与空间转录组的应用

研究首次证实RECODE适用于scHi-C数据。通过处理1 Mbp分辨率的sci-Hi-C数据,RECODE显著降低数据稀疏性,使单细胞拓扑关联域(TADs)结构与批量Hi-C高度一致,并成功识别出细胞类型特异的差异相互作用(DIs)。与潜在狄利克雷分配(LDA)方法联用时,细胞聚类轮廓分数(silhouette score)进一步提升,且发现的GM12878细胞特异性相互作用区域与ATAC-seq开放的染色质区域高度重叠。

在空间转录组方面,RECODE处理Stereo-seq、Visium HD和Xenium数据后,空间基因表达模式显著清晰化。Welch's t值检验显示,Arnt2、Foxc2等7个标志基因在目标区域的表达特异性显著提升,证实其能有效增强空间生物学信号的检测能力。

精度与计算效率的双重提升

通过引入特征向量修正策略和20%下采样学习(DL)算法,RECODE在保持精度的同时大幅提升运算速度。测试显示,新版本在保留标志基因变异的同时降低看家基因方差,且运行时间随细胞数和特征维度呈近线性增长,具备处理超大规模数据集的能力。

该研究建立的RECODE平台突破了单细胞数据分析中长期存在的技术瓶颈,其全维度保留的特性使其可与现有分析流程无缝整合。尽管在遗传信息高度相似的细胞分类中仍需结合ScType等辅助方法,且细微生物学变化与批次效应的区分仍具挑战,但该平台为多组学整合研究提供了坚实基础。随着噪声模型的进一步优化,RECODE有望在更多数据类型中揭示被噪音掩盖的生物学发现。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号