
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于增强对比学习与差异注意力机制的单细胞多组学数据整合方法scECDA
【字体: 大 中 小 】 时间:2025年08月08日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对单细胞多组学数据整合中存在的分布假设依赖、噪声敏感及聚类精度受限等问题,开发了scECDA算法。该技术通过独立自编码器学习各模态特征分布,结合增强对比学习与差异注意力机制,在8种多组学数据集上实现端到端聚类,准确率显著优于8种现有方法(如TriTan、scMVP等),为解析细胞异质性提供了新工具。
在生命科学领域,单细胞测序技术的突破让科学家们得以窥见细胞间的微小差异。然而,当研究人员试图整合scRNA-seq(单细胞RNA测序)、scATAC-seq(单细胞染色质可及性测序)和scADT-seq(单细胞表面蛋白测序)等多组学数据时,却面临三大难题:数据噪声像雾霾般模糊了生物信号,不同组学间的特征分布差异如同语言障碍,而传统聚类方法则像钝刀难以精准划分细胞亚群。这些瓶颈严重制约了人们对复杂组织构成和疾病机制的解析。
东北林业大学计算机与控制工程学院的研究团队在《Bioinformatics》发表的研究中,提出了革命性的scECDA框架。该工作通过三大技术创新实现了突破:首先构建独立自编码器提取各组学特征,采用t分布进行空间平滑去噪;随后设计增强对比学习模块,通过数据增强生成正负样本对,拉近同细胞多组学数据的潜在表征距离;最后引入差异注意力机制,像探照灯般聚焦关键生物特征。实验证明,该方法在10x Multiome、CITE-seq等8类数据集上的聚类准确率(ARI=0.82)显著优于现有技术,尤其对高稀疏数据的处理优势达20%以上。
关键技术包括:1)多模态自编码器特征提取;2)基于K-means初始化的t分布平滑;3)Dropout扰动增强的对比学习;4)可微分注意力特征融合。研究使用来自GEO数据库的9个真实数据集,涵盖12,000-150,000个细胞规模。
【模型聚类性能评估】
在SHARE_Mus_Brain等8个数据集测试中,scECDA的聚类准确率(cluster_avg=0.89)比次优方法提高12%。如图2所示,其对RNA+ATAC数据的整合效果尤为突出,在ATAC贡献率仅10.6%时仍保持稳定性能,而scMVP等方法的精度下降达35%。
【跨组学数据整合】
如图4所示,当处理Tea_PBMC三组学数据时,scECDA的NMI指标达0.91,较双组学模式提升9%,证明其能有效融合异构信息。而Mowgli在整合三组学时性能反降15%,暴露了扩展性缺陷。
【生物标志物发现】
通过Wilcoxon检验鉴定的CD8A、CD8B等标记基因(图6),与已知免疫细胞亚型高度吻合。在BMMC多批次数据中,scECDA成功消除批次效应(图5b),使不同来源的NK细胞在UMAP中紧密聚集。
这项研究的意义在于:1)首创端到端的单细胞多组学聚类框架,避免传统流程中整合与聚类割裂的问题;2)差异注意力机制为解析特征贡献提供可解释性,如发现CD4+ T细胞鉴定主要依赖RNA而非ATAC数据;3)开源工具支持10万级细胞分析,加速精准医学研究。未来通过引入空间转录组数据,有望进一步揭示组织微环境中的细胞互作网络。



生物通微信公众号
知名企业招聘