
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Graph Transformer的单细胞多组学数据整合算法scGT:提升跨组学标签迁移与生物变异保留能力
【字体: 大 中 小 】 时间:2025年06月26日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对单细胞RNA-seq(scRNA-seq)与ATAC-seq(scATAC-seq)数据整合中因忽略数据集内部相关性特征导致的性能局限,开发了基于Graph Transformer的scGT算法。通过构建强化相关特征的混合图结构,结合全局-局部信息传递机制,实现了跨组学数据的高精度整合(标签迁移准确率最高提升49.7%)和百万级细胞图谱的高效处理,为解析细胞异质性和表观调控机制提供了新工具。
在单细胞生物学领域,如何将转录组(scRNA-seq)与染色质可及性(scATAC-seq)数据有效整合,一直是解析细胞身份与基因调控网络的重大挑战。尽管已有Seurat、scJoint等方法尝试解决这一问题,但这些技术往往忽视数据集内部相关性特征对跨组学差异的影响,导致整合效果受限。尤其当面对百万级细胞图谱或存在未知细胞类型时,现有方法的性能瓶颈更为凸显。
哈尔滨工业大学的数学学院研究团队在《Bioinformatics》发表的研究中,提出了革命性的scGT算法。该工作通过三大创新突破技术壁垒:首先利用原始数据构建包含组内-组间连接的混合图,并通过高精度组内连接筛选优化拓扑结构;其次引入基于核化Gumbel-Softmax的Graph Transformer模块,实现不依赖图结构的全局信息传播;最后设计包含交叉熵损失、硬正则化损失和查询图正则化的复合损失函数。这些创新使scGT在五个多组学数据集测试中展现出显著优势,不仅将SNARE-seq小鼠大脑皮层数据的标签迁移准确率提升至73.7%(较scJoint提高1.5%,较Seurat提高20.5%),更能有效识别人类心肌梗死数据中的未知髓系细胞(Myeloid),并在百万级人类胎儿图谱数据中保持77.94%的预测精度。
关键技术方法包括:1)基于互最近邻(MNN)和互惠PCA(RPCA)构建混合图;2)采用两层级核化Gumbel-Softmax消息传递的Graph Transformer架构;3)设计包含组间连接硬正则化损失(LHard)和组内查询图正则化(LQuery)的复合优化目标;4)使用40万-100万细胞量级的人类胎儿图谱数据进行验证。
3.1 配对数据集性能验证
在SNARE-seq小鼠大脑皮层和SHARE-seq小鼠结肠数据中,scGT的UMAP可视化显示更清晰的细胞类型分离(图2a)。定量指标显著优于基线方法:细胞类型轮廓系数(Silcelltype)提升15%,F1分数达0.82,且平均精度(MAP)提高0.2以上(图2d)。特别是对少见的少突胶质前体细胞(OPC)的识别准确率提升37%。
3.2 非配对类型匹配数据
在PBMC数据集测试中,混合图连接过滤策略将正确连接率从81.7%提升至88%(图3c)。借助置信度>0.95的细胞自训练策略,最终标签迁移准确率达84.7%,并验证了CCR7基因与CD45RA蛋白在Naive CD4+ T细胞中的共表达模式(图3g)。
3.3 类型不匹配数据整合
对人类心肌梗死数据的分析显示,scGT能有效分离仅存在于snATAC-seq中的髓系细胞(图4a红色圈注),其未知类型识别准确率达92.9%。置信度评分 violin图显示scGT对非常见细胞类型的低置信度响应更特异(图4c)。
3.4 百万级图谱数据处理
在43万scRNA-seq与65万scATAC-seq细胞组成的人类胎儿图谱中,scGT不仅实现77.94%的标签迁移精度,更发现被初始标注为星形胶质细胞(Astrocytes)的群体实际表达放射状胶质细胞标记基因(SOX2、PAX6),可能为多潜能神经前体细胞(图5c和补充图5)。
这项研究的重要意义在于:技术上,首次将Graph Transformer的全局感知能力引入单细胞多组学整合,突破传统图神经网络的局部性限制;应用上,开发的混合图构建策略和复合损失函数为处理复杂生物数据集提供了新范式。特别是对未知细胞类型的识别能力(如髓系细胞分离)和百万级数据的处理效率,使得scGT成为构建单细胞多组学图谱的有力工具。未来通过优化少样本细胞类型的图过滤策略,有望进一步推动单细胞分析技术在精准医学中的应用。



生物通微信公众号
知名企业招聘