
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用超图神经网络HyperAD解析阿尔茨海默病风险基因的高阶关联与精准预测
【字体: 大 中 小 】 时间:2025年09月20日 来源:Frontiers in Genetics 2.8
编辑推荐:
本研究提出了一种创新的超图神经网络框架HyperAD,通过整合MSigDB数据库中的功能基因集(如Hallmark、C2、C5等),构建基因超图以捕捉多基因高阶相互作用,克服了传统方法仅依赖简单配对关系的局限性。该模型采用两阶段消息传递机制(节点-超边聚合与超边-节点聚合)和AD特异性加权模块,显著提升了阿尔茨海默病(AD)风险基因的预测性能(AUROC提高7.9%–21.7%,AUPRC提高23.2%–44.7%)。验证结果表明,HyperAD预测的基因富集于AD相关生物过程(如认知功能、突触可塑性调控),与已知AD基因在蛋白互作(PPI)、序列相似性和miRNA调控网络中显著关联,且其蛋白表达水平在ROSMAP队列中与认知衰退程度密切相关。该研究为复杂疾病基因挖掘提供了新范式,具有重要的理论价值与转化潜力。
阿尔茨海默病(Alzheimer’s Disease, AD)是一种进行性神经退行性疾病,是全球痴呆症最常见的原因。其遗传率估计高达60%–80%,但常见晚发型AD(LOAD)的遗传结构复杂,尚未完全解析。全基因组关联研究(GWAS)已发现数十个AD风险位点,但仍存在假阴性率高、难以定位致病基因等局限性。因此,计算生物学方法成为补充GWAS、优先筛选候选基因的关键手段。
传统方法多基于“关联 guilt-by-association”原则,利用蛋白质-蛋白质相互作用(PPI)网络或功能基因网络(FGN),通过机器学习(如支持向量机SVM、图卷积网络GCN)预测疾病基因。然而,这些方法仅建模二元交互,无法捕捉多基因功能单元(如通路、模块)的高阶关联模式,限制了其对复杂疾病机制的解析能力。
为此,本研究提出HyperAD——一种基于超图神经网络(Hypergraph Neural Network)的新框架,通过显式建模基因的高阶关系(如功能通路、调控模块),显著提升AD风险基因的预测精度与生物学可解释性。
超图构建基于分子特征数据库(MSigDB v7.4),涵盖九大类基因集:
H(Hallmark):代表性生物过程
C1:染色体位置基因集
C2: curated通路与文献基因集
C3:调控靶点(miRNA、转录因子)
C4:计算衍生基因集(癌症微阵列)
C5:本体基因集(GO、HPO)
C6:致癌基因集
C7:免疫学基因集
C8:细胞类型标志物(单细胞测序)
正集包含147个高置信度AD风险基因(来自OMIM、GWAS Catalog、DisGeNet、AlzGene),负集从全基因组中剔除潜在AD基因后随机采样1000个基因,以平衡训练集。
超图定义为G(V, E, W),其中V为节点(基因)集合,E为超边(基因集)集合,W为超边权重。关联矩阵H ∈ RN×M表示节点与超边的隶属关系(H(va, eb) = 1 若va ∈ eb)。节点度d(v) = ∑e∈E w(e)H(v, e),超边度δ(e) = ∑v∈V H(v, e)。
超图拉普拉斯矩阵定义为:
Δ = I - Dv-1/2 H W De-1 HT Dv-1/2
借鉴图卷积网络(GCN)谱方法,超图卷积层定义为:
X(l+1) = σ(Dv-1/2 H W De-1 HT Dv-1/2 X(l) Θ(l))
HyperAD为端到端深度学习框架,核心包括:
超图构建:以MSigDB基因集为超边,基因为节点,构建超图结构。
基因嵌入初始化:通过非线性变换将one-hot编码的基因特征映射为低维嵌入:
xv(0) = ReLU(x Θ0 + b0)
两阶段消息传递:
节点→超边聚合:超边特征更新为成员节点特征的加权归一化聚合:
ye(l) = σ(∑v∈N(e) [xv(l) / d(v)] Θv→e(l))
超边→节点聚合:引入AD特异性超边权重w(e),衡量超边与AD的相关性:
w(e) = [∑v∈V H(v,e) f(v,Vd)] / [∑v∈V H(v,e)]
其中f(v,Vd) = 1 若v为已知AD基因,否则为0。节点更新公式为:
xv(l+1) = σ(∑e∈E(v) [w(e) ? ye(l)] Θe→v(l) + xv(l))
输出层:通过全连接层与Softmax输出基因风险评分:
Z = Softmax(xv(l) Θ1 + b1)
模型以交叉熵为损失函数,Adam算法优化参数。
HyperAD在十折五重交叉验证中显著优于六种前沿方法:
AUROC提升7.9%–21.7%(相对FGN、RWRM、DiGI等)
AUPRC提升23.2%–44.7%
尤其较GSI(同源基线)提升AUROC 2.3%、AUPRC 9.0%,证明超图动态建模优于静态特征矩阵方法。
基因集贡献分析:集成所有MSigDB集合(ALL)性能最优,其中C2(curated通路)和C5(本体基因集)为核心信息源,其余集合(如C1、C3、C4等)提供补充上下文信息。
AD加权模块必要性:移除该模块后AUROC下降3.3%、AUPRC下降12.3%,证明疾病特异性加权对聚焦相关生物学背景至关重要。
Top10%预测基因(排除已知正例)显著富集于41个AD相关GO生物过程(FDR < 10-10),包括:
认知功能(GO:0050890, FDR = 7.7×10-49)
学习记忆(GO:0007611, FDR = 3.4×10-47)
突触可塑性调控(GO:0048167, FDR = 8.2×10-37)
淀粉样蛋白清除(GO:0097242, FDR = 3.9×10-20)
表明模型精准捕获AD相关功能模块。
Top50新基因与已知AD基因在三大网络中显著关联(P < 0.0001):
蛋白序列相似性网络
STRING PPI网络
mirTarBase miRNA靶向网络
证明候选基因与AD存在多维度功能耦合。
基于ROSMAP队列蛋白组数据(NCI=174, MCI=100, AD=104),67个候选基因中40.3%(27个)的蛋白表达与认知衰退显著单调相关(Kendall’s Tau-b, FDR < 0.05):
12个基因正相关(表达随认知衰退上升)
15个基因负相关(表达随认知衰退下降)
典型案例包括:
CDK5/GSK3B:表达负相关,与Tau蛋白过度磷酸化机制一致
APOA4/APOA1/APOC3:染色体11基因簇表达下降,已知AD风险模块
证明模型能识别协同作用的多基因功能单元。
HyperAD通过超图神经网络建模基因高阶关联,突破了传统二元交互限制,为AD遗传架构解析提供了新范式。其预测基因均经多维度验证(功能富集、网络关联、蛋白表达),具备高生物学可信度。未来需对新型候选基因开展实验验证,并可扩展至其他复杂疾病研究。该框架有望加速AD机制解析与靶点发现,推动精准医疗发展。
生物通微信公众号
知名企业招聘