基于动态融合对抗自编码器-图网络的scRNA-seq鲁棒聚类方法scCAGN研究

【字体: 时间:2025年08月19日 来源:BMC Genomics 3.7

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)数据的高维度、稀疏性和异质性挑战,提出了一种融合对抗自编码器(AAE)与交叉注意力图卷积网络(GCN)的深度聚类模型scCAGN。通过动态信息融合机制整合多模态特征,结合三重损失函数优化,在8个基准数据集上实现最高0.9732的标准化互信息(NMI),平均性能提升13%,为无标记细胞类型鉴定提供了新范式。

  

在生命科学领域,单细胞RNA测序(scRNA-seq)技术的突破性进展让研究者得以在单细胞分辨率下解析组织细胞的异质性。然而,这项技术产生的数据具有"三高"特征——高维度(通常含数万个基因)、高稀疏性(零值占比超90%)和高噪声,使得传统的聚类方法如K-means或t-SNE难以准确识别细胞亚群。更棘手的是,现有深度学习方法往往只利用单层隐藏特征,或简单线性叠加多模态数据,导致细胞间复杂的非线性关系被忽视。这些技术瓶颈严重制约了癌症、发育生物学等领域对稀有细胞群体的精准鉴定。

针对这一挑战,河海大学海事智能空间技术教育部重点实验室的研究团队开发了scCAGN模型。该研究创新性地将对抗训练机制引入特征提取过程,通过生成器与判别器的动态博弈迫使编码器学习更接近真实数据分布的潜在空间。同时,模型采用多头交叉注意力机制(Multi-Head Attention)智能融合图卷积网络(GCN)捕获的拓扑结构与基因表达特征,最终在八大数据集上创下0.9732的NMI纪录,相关成果发表于《BMC Genomics》。

关键技术包括:1)基于KNN(K=10)构建细胞相似性图;2)四头注意力机制动态加权AAE与GCN特征;3)采用学生t分布(τ=0.5)计算软聚类概率;4)联合优化重构损失Lres、对抗损失Lg和双重约束聚类损失Ldc。实验数据涵盖10x Genomics、Smart-seq2等平台产生的10个数据集,经严格质控保留变异度最高的2000个基因。

主要研究结果

Clustering performance comparison

在QS_diaphragm数据集上,scCAGN以0.9732 NMI和0.9875 ARI全面超越8种对比方法(图2)。其跨数据集平均性能较最差基线提升13%,且在噪声显著的Muraro数据中保持0.8558 NMI的稳健表现。

Effectiveness validation of the GCN module

对比实验显示(图4b),标准GCN在捕获局部结构方面显著优于GAT和GraphSAGE变体,后者因过度关注节点关系而损失空间信息,导致聚类准确率下降5-8%。

Ablation analysis

移除交叉注意力机制(CA)会使QS_Trachea数据集NMI下降10.63%(图5a),证实动态融合策略对性能的关键作用。而单纯拼接(Concat)或乘积(Multiply)融合方式均导致特征信息损失。

Impacts of different loss functions

三重损失联合优化时模型达到峰值性能(表2)。单独使用Ldc或Lg时,Muraro数据集ARI仅0.7077,而联合优化后提升至0.8867,证明对抗训练与聚类约束的协同效应。

Hyperparameter analysis

温度参数τ=0.5时模型表现最优(图6a-b),注意力头数设为4可在特征专注度与计算效率间取得平衡。值得注意的是,在跨批次验证中(图6c-d),scCAGN对Dendritic数据集批次效应的耐受性较次优模型提升8.1% ARI。

该研究通过AAE-GCN的有机融合,首次实现了scRNA-seq数据中全局特征与局部拓扑的协同优化。其创新点在于:1)利用对抗训练增强潜在空间的结构化表达;2)通过交叉注意力实现多源特征的智能加权;3)设计双重约束机制提升聚类置信度。这些突破不仅为阿尔茨海默病等复杂疾病的稀有细胞鉴定提供新工具,更为多组学数据整合建立了方法论框架。未来工作可拓展至空间转录组等新兴领域,进一步揭示细胞微环境的空间异质性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号