
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图残差注意力网络的基因调控网络推断新方法GRANet及其在单细胞转录组学中的应用
【字体: 大 中 小 】 时间:2025年07月28日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据中基因调控网络(GRN)推断存在的网络规模大、噪声干扰和数据稀疏性等问题,提出了一种新型深度学习框架GRANet。该模型通过整合多维度生物特征和残差注意力机制,显著提高了GRN推断的准确性。实验表明,GRANet在多个基准数据集上AUROC和AUPRC指标均优于现有方法,特别是在识别转录因子(如EGR1、CBFB和ELF1)的靶基因方面表现出色,为揭示基因调控机制和疾病相关通路提供了新工具。
在生命科学领域,基因调控网络(GRN)的解析犹如破解细胞命运的密码本。转录因子(TF)与靶基因之间错综复杂的调控关系,直接影响着细胞分化、疾病发生等关键生物学过程。随着单细胞RNA测序(scRNA-seq)技术的突破,科学家们得以在单个细胞分辨率下探索这些奥秘,但传统方法在面对数据噪声、网络规模和高维特征时往往力不从心——就像用放大镜观察星空,既看不清细节又难窥全貌。
重庆邮电大学计算机科学与技术学院的研究团队在《Briefings in Bioinformatics》发表的研究中,提出了革命性的GRANet框架。这个如同"基因关系解码器"的系统,通过多特征提取模块将原始表达数据转化为标准化、平滑化和离散化特征,就像为模糊的基因表达图谱配上了高精度滤镜。其核心的图注意力融合模块采用双层次设计:RGAT层通过残差连接的多头注意力捕捉局部调控关系,RCGAT层则结合卷积运算整合全局拓扑特征,最终通过嵌入预测模块精准量化TF-靶基因相互作用强度。
研究团队创新性地建立了多技术融合的分析体系:1)利用变分自编码器(VAE)重构基因表达矩阵降噪;2)开发三模态特征提取流程(包含移动平均平滑和μ±2σ离散化处理);3)构建具有内部残差连接的图注意力网络(RGAT);4)采用改进的点二元交叉熵损失函数处理样本不平衡问题。实验数据来自GEO数据库的7个scRNA-seq数据集(包括hESC、mDC等),并整合STRING数据库和ChIP-seq验证网络。
【性能比较】
在STRIN、非特异性和细胞类型特异性ChIP-seq三种基准网络上,GRANet的AUROC平均值较次优模型GATCL提升1.62-34.77%,AUPRC提升10.66-124.14%。特别是在mESC数据集上,其对细胞分化关键TF(如CBFB)的预测精度达到惊人的100%验证率。
【消融研究】
模块重要性排序显示:多特征提取模块贡献最大(移除导致AUROC下降6.82%),VAE编码器(5.23%)和残差连接(4.37%)次之。离散化水平实验表明20分箱为最优参数,能在特征表达和计算效率间取得平衡。
【案例研究】
在mHSC-GM数据集的应用中,GRANet不仅准确预测了已知的调控关系(如ELF1与24/25个靶基因的互作),还发现了潜在新型调控靶点。这些未经验证的预测可能蕴含着尚未被认知的调控通路,为后续实验研究提供了宝贵线索。
这项研究突破了传统GRN推断方法的三大局限:通过多维度特征融合解决了信息提取不充分的问题;残差注意力机制有效缓解了小样本过拟合;图卷积与注意力网络的协同设计实现了局部与全局特征的统一建模。值得注意的是,GRANet在极端稀疏数据场景仍有改进空间,研究者建议未来可整合蛋白质组学等多组学数据,或引入自监督学习降低对标注数据的依赖。作为单细胞时代的新型分析工具,GRANet不仅为基础研究提供了基因调控解析的新范式,其模块化设计思路更为生物医学领域的复杂网络推断开辟了可借鉴的技术路径。
生物通微信公众号
知名企业招聘