
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SGMHA:利用多头注意力机制进行语义图重构,以推断基因调控网络
《BMC Genomics》:SGMHA: semantic graph reconstruction with multi-head attention for gene regulatory network inference
【字体: 大 中 小 】 时间:2026年06月10日 来源:BMC Genomics 3.7
编辑推荐:
摘要从单细胞RNA测序(scRNA-seq)数据中推断基因调控网络(GRNs)面临着严重的数据稀疏性问题,这种稀疏性导致普遍的基因丢失现象,掩盖了真实的调控信号,从而影响了下游推断的可靠性。现有的监督学习方法虽然利用了先前的网络结构,但由于其端到端的学习范式,仍然容易受到这种噪声
从单细胞RNA测序(scRNA-seq)数据中推断基因调控网络(GRNs)面临着严重的数据稀疏性问题,这种稀疏性导致普遍的基因丢失现象,掩盖了真实的调控信号,从而影响了下游推断的可靠性。现有的监督学习方法虽然利用了先前的网络结构,但由于其端到端的学习范式,仍然容易受到这种噪声的影响。为了解决这一瓶颈,我们提出了SGMHA,这是一个新颖的两阶段框架,它将表示学习与链接预测分离开来。具体而言,SGMHA首先使用自监督图掩码自动编码器(GraphMAE)通过重建随机掩码的表达值来学习稳健的基因表示,从而减轻了由稀疏性引起的失真。随后,一个基于多头注意力(MHA)的微调模块将这些预训练的表示与原始表达数据结合,以准确推断出有向的调控链接。在七个scRNA-seq数据集上的广泛基准测试表明,SGMHA在接收者操作特征曲线下面积(AUROC)和精确度-召回率曲线下面积(AUPRC)两个指标上均显著优于八种最先进的方法。将SGMHA应用于乳腺癌转移研究,揭示了特定情境下的GRNs,并识别出26个高置信度的候选驱动因子。其中,六个因子(NDUFAF4、ENY2、CCT5、PGK1、DCTPP1和H2AFZ)被验证为预后生物标志物,它们在转移适应中的机制作用通过多组学整合得到了详细研究。总体而言,SGMHA提供了一个准确、可扩展且生物学上可解释的GRN推断工具,对于复杂疾病中的生物标志物发现具有巨大潜力。
从单细胞RNA测序(scRNA-seq)数据中推断基因调控网络(GRNs)面临着严重的数据稀疏性问题,这种稀疏性导致普遍的基因丢失现象,掩盖了真实的调控信号,从而影响了下游推断的可靠性。现有的监督学习方法虽然利用了先前的网络结构,但由于其端到端的学习范式,仍然容易受到这种噪声的影响。为了解决这一瓶颈,我们提出了SGMHA,这是一个新颖的两阶段框架,它将表示学习与链接预测分离开来。具体而言,SGMHA首先使用自监督图掩码自动编码器(GraphMAE)通过重建随机掩码的表达值来学习稳健的基因表示,从而减轻了由稀疏性引起的失真。随后,一个基于多头注意力(MHA)的微调模块将这些预训练的表示与原始表达数据结合,以准确推断出有向的调控链接。在七个scRNA-seq数据集上的广泛基准测试表明,SGMHA在接收者操作特征曲线下面积(AUROC)和精确度-召回率曲线下面积(AUPRC)两个指标上均显著优于八种最先进的方法。将SGMHA应用于乳腺癌转移研究,揭示了特定情境下的GRNs,并识别出26个高置信度的候选驱动因子。其中,六个因子(NDUFAF4、ENY2、CCT5、PGK1、DCTPP1和H2AFZ)被验证为预后生物标志物,它们在转移适应中的机制作用通过多组学整合得到了详细研究。总体而言,SGMHA提供了一个准确、可扩展且生物学上可解释的GRN推断工具,对于复杂疾病中的生物标志物发现具有巨大潜力。