
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scRDAN:基于鲁棒域适应网络的单细胞RNA测序数据跨平台跨物种细胞类型注释新方法
【字体: 大 中 小 】 时间:2025年07月20日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
针对单细胞RNA测序(scRNA-seq)数据中噪声干扰和批次效应(batch effects)导致的细胞类型注释难题,曲阜师范大学团队开发了鲁棒域适应网络scRDAN。该研究通过去噪域适应模块(DDA)、细粒度判别模块(FGD)和鲁棒增强模块(RE)的三重设计,在模拟/跨平台/跨物种数据集中实现0.908的准确率(Accuracy)和0.742的轮廓系数(Silhouette score),显著优于scAdapt等现有方法,为单细胞跨数据集分析提供了新工具。
在生命科学领域,单细胞RNA测序(scRNA-seq)技术犹如一台高倍显微镜,让科学家们能够观察每个细胞的基因表达图谱。然而,这项革命性技术也带来了新的挑战——当不同实验室、不同测序平台甚至不同物种的数据放在一起时,技术差异造成的"批次效应"(batch effects)就像蒙在显微镜上的雾气,使得相同细胞类型在不同数据集中的表达谱出现系统性偏差。更棘手的是,单细胞数据本身还存在高噪声的特性,这些因素共同导致现有细胞注释方法的准确率在跨数据集应用时显著下降。
面对这一难题,曲阜师范大学计算机科学学院的研究团队在《Briefings in Bioinformatics》发表了创新性解决方案。他们开发的scRDAN(robust domain adaptation network)通过三大模块的协同作用,成功实现了跨数据集的高精度细胞注释:去噪域适应模块(DDA)采用特征重构和对抗学习策略,在过滤噪声的同时对齐数据分布;细粒度判别模块(FGD)通过三重损失函数(triplet loss)控制同类细胞紧凑性和异类细胞分离度;鲁棒增强模块(RE)则通过虚拟对抗训练(VAT)和一致性训练提升模型抗干扰能力。研究采用模拟数据集(设置batch.facLoc参数0.2-1.4梯度)和真实跨平台(10x/inDrops)、跨物种(人/鼠)数据进行验证,关键技术包括特征重构损失函数Lmse、域判别损失LDA、三重损失Ltri以及KL散度计算的虚拟对抗损失Lvat。
研究结果显示:在模拟数据测试中,当批次效应强度(batch.facScale)达到1.4时,scRDAN仍保持0.985的准确率,显著优于SCdenoise(0.963)和scDOT(0.942);在10x_Drop-seq跨平台数据中,其准确率(0.908)比第二名scAdapt提高2.3%,且成功解决了CD4+ T细胞与细胞毒性T细胞的误标问题;在Baron_human_mouse跨物种数据中,轮廓系数(0.737)表明其能有效区分β细胞与α细胞等相似类型。可视化分析显示,UMAP图中不同批次数据点实现完美重叠,且细胞类型边界清晰。
这项研究的突破性在于:首次将特征去噪、域适应和鲁棒增强策略整合到统一框架,通过LDDANN = LCE + λDALDA + λmseLmse的多目标优化,同步解决了噪声过滤和分布对齐的难题。特别值得注意的是,细粒度判别模块通过控制锚定细胞(anchor cell)与正/负样本的距离(公式5),有效防止了全局对齐导致的类型边界模糊。研究团队也指出,未来可通过动态调整对齐策略进一步提升对稀有细胞类型的识别能力。该成果为单细胞大数据整合分析提供了新范式,对肿瘤微环境解析、发育生物学研究等具有重要意义。
生物通微信公众号
知名企业招聘