基于交叉注意力图神经网络的偏态度分布基因调控网络推断方法XATGRN

【字体: 时间:2025年07月18日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对基因调控网络(GRN)推断中存在的偏态度分布(skewed degree distribution)问题,提出了一种创新的交叉注意力复杂双图嵌入模型(XATGRN)。该研究通过融合交叉注意力机制(CAN)和双图注意力编码器(DUPLEX),有效解决了传统方法在方向性预测和低度节点处理上的局限性。实验表明,XATGRN在DREAM5、E.coli和人类疾病数据集上AUC最高达94.47%,显著优于现有方法。该成果为解析复杂疾病机制和发现治疗靶点提供了新工具,相关代码已开源。

  

在生命科学领域,基因调控网络(GRN)的解析犹如破解细胞运作的密码本。然而现有计算方法面临两大难题:一是传统卷积神经网络(CNN)难以处理非欧几里得空间数据,二是大多数图神经网络(GNN)忽略了基因节点普遍存在的"偏科现象"——某些基因像社交达人般调控大量靶基因(高out-degree),而另一些则像信息接收站般被多个因子调控(高in-degree)。这种偏态度分布(skewed degree distribution)导致现有方法在预测调控方向和类型时准确率受限。

华南师范大学 Aberdeen 数据科学与人工智能研究院的Jiaqi Xiong等研究人员在《BMC Bioinformatics》发表的研究,带来了突破性解决方案。团队开发的交叉注意力复杂双图嵌入模型(XATGRN),创新性地将金融领域的DUPLEX算法"跨界"应用于GRN分析,配合自主研发的交叉注意力网络(CAN),在9个基准数据集上实现了平均94.47%的AUC值,较现有最优方法提升近2个百分点。这项研究不仅为GRN推断设立了新标准,更在乳腺癌等疾病机制解析中展现出重要应用价值。

研究采用三大核心技术:1)基于CAN的融合模块,通过多头自注意力(MHA)捕捉基因表达谱特征;2)关系图嵌入模块,利用Hermitian邻接矩阵(HAM)编码四种调控关系(i,-i,1,0);3)双GAT编码器,分别处理振幅嵌入(au)和相位嵌入(θu)。实验数据来源于DeepFGRN基准库,涵盖DREAM5挑战赛数据、4种E.coli应激状态和4类人类疾病数据集。

方法学创新

XATGRN的融合模块突破传统CNN局限,通过公式(1)-(5)实现基因对的交叉特征提取。如图1所示,关系图嵌入模块创新性地将节点表示为xu=au⊙exp(iπθu/2),通过H=As⊙exp(iπΘ/2)的极坐标形式保留方向信息。这种表示方法使模型能同时处理TP53既作为靶基因又作为调控因子的双重角色。

性能验证

如表2所示,在DREAM5数据集上,XATGRN以84.48%的精确度碾压DGCGRN的78.23%。特别在E.coli氧化应激数据中,其F1值达81.91%,较Graphormer+CAN提升3.88%。图3的雷达图清晰显示XATGRN在所有指标上的全面领先。敏感性分析(图5)揭示λ0=0.3和q=1e-4为最优超参数组合,此时模型对度分布偏斜的鲁棒性最佳。

生物学意义

案例研究部分令人振奋。如图6所示,模型预测的乳腺癌十大枢纽基因中,STAT3-Myc调控轴的实验验证率高达100%。图7展示的药物富集分析发现,辣椒素通过TRPV1受体抑制乳腺癌细胞生长的机制获得实验支持。值得注意的是,模型成功捕捉到TP53通过miR-145负调控Myc的关键通路(文献[48]),这解释了为何p53突变会导致三阴性乳腺癌(TNBC)预后不良。

这项研究的价值不仅在于算法突破。通过将金融图嵌入技术创造性应用于生物网络,XATGRN实现了三大跨越:1)首次系统解决GRN中的度分布偏斜问题;2)建立包含激活、抑制双向预测的统一框架;3)在保持94.47%AUC的同时,运行效率较DeepFGRN提升17%。正如讨论部分强调的,该模型为解析COVID-19等复杂疾病的基因调控机制提供了新范式,其开源的特性(代码库https://github.com/kikixiong/XATGRN)将加速相关研究的进展。未来工作可探索单细胞数据整合,进一步揭示调控关系的细胞异质性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号