综述:通路引导的可解释人工智能架构在生物医学研究中的应用

《Computational and Structural Biotechnology Journal》:Pathway-Guided Architectures for Interpretable AI in Biological Research

【字体: 时间:2025年11月02日 来源:Computational and Structural Biotechnology Journal 4.1

编辑推荐:

  本综述系统阐述通路引导的可解释深度学习架构(PGI-DLA)这一前沿领域,重点分析了其如何整合KEGG、GO、Reactome、MSigDB等通路数据库知识来构建可解释AI模型,详细比较了不同多组学数据整合策略、三大核心架构(稀疏神经网络、图神经网络、Transformer)的优劣,并总结了基于深度学习的特征重要性解读方法(如SHAP、DeepLIFT),为将组学数据转化为可操作的生物学和临床见解提供了重要指导。

  
理解复杂生物通路的失调对于揭示分子机制和识别复杂疾病的新治疗机会至关重要。近年来,深度学习(DL)模型在模拟生物多组学数据方面显示出巨大潜力;然而,其“黑箱”性质限制了其在生物学和临床转化中的应用。知识引导的深度学习,特别是基于通路引导的可解释深度学习架构(PGI-DLA)的方法,旨在通过将先前的通路知识整合到模型结构中来提高模型性能和可解释性。
多组学数据作为PGI-DLA的输入
PGI-DLA模型可以处理大规模多模态数据作为输入,以构建疾病的分子图谱,包括基因组学(例如,突变、拷贝数变异(CNV)和单核苷酸多态性(SNP))、表观基因组学(例如,DNA甲基化)、转录组学、蛋白质组学和代谢组学数据。这些模型还可以整合其他高通量数据用于特定的预测或建模目的,例如化学信息学数据(例如,药物化学指纹)、具有生理背景的临床数据(例如,患者生存期)以及捕获组织空间异质性的数字病理学组织学图像(例如,全切片图像)。每种组学数据类型都经过特定处理以输入模型。
基因组变异具有二元或分类测量值,通常被编码为整数。例如,突变被编码为“0/1”,等位基因拷贝数被编码为“0/1/2”,CNV被编码为从-2到2的整数。这些编码可以连接起来以表示多种类型的基因组变异。对于连续数据(表观基因组学、转录组学、蛋白质组学、代谢组学),标准工作流程包括数据清理、标准化和转换。例如,标准化后,DNA甲基化水平由范围从0(未甲基化)到1(完全甲基化)的β值表示。
数据整合作为PGI-DLA的输入
疾病生物学的复杂性源于多个分子水平的异常。为了构建全面的疾病分子谱,PGI-DLA模型通常使用早期整合和晚期整合策略来整合组学数据。
在早期整合中,来自不同组学的特征向量在输入层连接,形成基因或样本水平的扩展向量。例如,GPC-Net结合了突变、拷贝数改变和DNA甲基化数据;c-Diadem、BioVNN和MPVNN整合了基因表达和突变数据;MULGONET、DeepOmix、MCDHGN、PGLCN和Pathformer连接了基因表达、突变和DNA甲基化数据。除了直接连接,早期整合可以使用更定制的组合策略。
在晚期整合中,独立的网络分支处理每个组学类型并提取特征,然后通过连接或加权融合将它们组合起来。例如,c-Triadem模型通过设计独立的输入层来处理每种类型的数据,然后再将它们连接起来,从而整合SNP数据和基于微阵列的表达数据。ViLoN从基因表达、突变和DNA甲基化数据构建相似性图,然后使用变异信息距离进行标准化和加权融合,以构建模型输入的统一权重图。晚期整合在处理跨组学数据集的不完全重叠或缺失数据时提高了模型的适应性和稳定性。然而,独立的分支结构增加了模型复杂性,导致参数数量、计算成本和训练时间增加。
组学数据经常与临床数据整合以预测患者结局。根据特征类型,临床数据可以标准化为数值(例如,z-score年龄)或编码为二元或one-hot变量(例如,性别、肿瘤分期)。这些特征在不同层与组学数据连接。缺失的临床数据通过删除不完整样本或使用KNN等方法插补来处理。除了表格临床数据,临床文本数据也可以作为输入。
为了预测药物反应或实现药物重定位,组学数据通常与药物化合物描述符整合,例如分子量、化学键类型、官能团、拓扑结构和物理化学性质。这些化合物特征被数字化以进行计算分析。例如,DrugCell和ParsVNN将化学结构转换为固定长度的向量,如摩根指纹。为了将化合物与靶分子整合,AIDTox使用源自知识图谱的二元化学-基因矩阵,而DTox将化学指纹转换为靶点结合概率。与晚期整合类似,可以设计独立的分支来分别处理药物和基因相关特征,然后再融合它们。
组学数据也可以通过晚期整合与组织学图像结合。在组织学分支中,图像使用滑动窗口或网格划分为片段,这些片段使用视觉编码器(如Vision Transformer(ViT)或Swin Transformer)编码为高维向量。ViT捕获全局组织特征,而Swin Transformer构建从局部到全局的上下文。片段级特征通过连接或注意力机制组合以生成切片级表示。
最后,高通量扰动和知识图谱可以作为输入整合到模型中以指导其操作。例如,DepMap的CRISPR筛选数据量化了每个基因对细胞存活的重要性,可以与突变数据整合以预测癌症驱动基因,如xNNDriver所示。
总之,PGI-DLA模型可以通过特征连接(早期整合)或独立网络分支(晚期整合)整合多组学、临床、药物、组织学和知识图谱数据。这使得PGI-DLA模型能够在不同分子水平上学习生物过程,并可根据不同的预测任务进行定制。
注释通路作为模型设计的蓝图
生物通路是驱动特定生物过程的基因产物和小分子的有序集合。通路数据库描述和组织不同的通路,作为PGI-DLA模型网络结构的蓝图。由于设计原则和历史因素的差异,这些数据库之间的通路注释和组成基因存在显著差异,在选择数据库以优化PGI-DLA模型的性能和可解释性时必须考虑这些差异。
我们的调查强调了四个广泛使用的公共数据库:Reactome、KEGG、MSigDB和GO。KEGG将基因和小分子与疾病联系起来,并通过专家策划的通路图展示分子相互作用网络。KEGG通路数据库采用三层结构(核心类别、功能子类别和特定通路),当前版本包含367个人类通路。Reactome以反应为中心,在高度结构化的生物反应网络中描述复杂的生物通路。每个反应指定了分子参与者、生化事件和层次关系,从而能够详细分析疾病生物学中的特定步骤和因果关系。Reactome当前版本包括2,769个人类通路。GO提供描述基因在生物过程(BP)、分子功能(MF)和细胞成分(CC)中功能的分层本体术语。其有向无环图(DAG)结构非常适合按功能对基因进行分层聚类,当前版本包含超过3,000个人类术语。MSigDB作为基因集的集成中心,收集来自上述数据库的通路信息以及从实验(例如模拟疾病或生物表型的扰动)衍生的功能基因集。
在DL模型出现之前,通路数据库之间的架构差异已知会影响它们在通路分析中的应用。例如,虽然这些数据库的通路注释可用于过表达分析(ORA)或基因集富集分析(GSEA),将所有组成基因视为等同,但KEGG和Reactome中详细的通路结构支持更具信息量的基于拓扑的分析。相反,GO的DAG结构适合功能相似性分析,能够量化基因功能接近度以预测蛋白质相互作用和功能模块。GO的层次结构还支持高级算法(例如,parent-child、Elim)以减少冗余,从而提高富集分析的准确性和可解释性。
除了架构之外,组成基因的差异显著影响PGI-DLA模型的数据库选择。例如,在凋亡通路中,只有17个基因(约10%)在KEGG(hsa04210,137个基因)、Reactome(R-HSA-109581,168个基因)、GO(GO:0006915,1075个基因)和MSigDB(HALLMARK_APOPTOSIS,161个基因)中重叠。这17个基因参与核心的凋亡执行,例如caspase级联和死亡受体信号传导。KEGG包含参与信号转导和炎症的独特基因(例如,PARP3、CASP12),但缺少像GSDMD(存在于Reactome中)这样的非caspase基因。Reactome涵盖炎症和降解基因(例如,TLR4、PSMD8),但省略了像AKT3(存在于KEGG中)这样的信号转导基因。GO包含的基因数量显著多于其他数据库,广泛覆盖应激反应和非caspase依赖性凋亡基因(例如,HSP90AA1、AIFM3);然而,其广泛的范围可能降低特异性。MSigDB的HALLMARK基因集涵盖了参与凋亡的多种生物事件,包括氧化应激(例如,HMOX1)、免疫炎症(例如,IL6)和转录调控(例如,JUN、RELA)。然而,由于冗余去除,该基因集缺乏一些关键的凋亡相关基因(例如,KEGG中注释的MAPK10),可能限制全面的凋亡建模。
通路数据库以不同的方式管理。KEGG和Reactome依赖于从文献和监管文件中进行专家手动策划,以确保高准确性。GO结合了手动策划和计算预测,实现了更广泛的覆盖范围和更频繁的更新。MSigDB的更新基于聚合的源内容;然而,某些内容,例如C2:CP:KEGG_LEGACY子集,由于版权许可限制无法更新,存在通路信息过时的风险。
总之,研究人员在开发PGI-DLA模型时必须评估数据库结构、更新频率、数据质量和版权限制,以为其特定研究任务选择最合适的数据库。
核心PGI-DLA架构范式
PGI-DLA模型的核心原理是通过利用先验生物知识(如KEGG和Reactome中的通路结构、GO的功能DAG以及MSigDB的精炼基因集)来提高预测性能和模型可解释性。其架构分为三类:通路知情的稀疏网络架构、基于通路的图构建和基于Transformer的通路建模。
通路知情的稀疏网络架构
这些模型使用通路数据库创建稀疏神经网络,确保信息沿着已知通路流动以提高可解释性。根据网络的复杂性和所关注的特定基因-通路关系,可以进一步分为单层、分层和复杂嵌入模型。
单层通路嵌入模型构建一个单层稀疏通路隐藏层,每个节点对应一个特定通路。输入特征(例如,基因或代谢物)与通路节点之间的连接通常通过二元掩码矩阵实现,表示特征是否包含在通路中。该通路层然后被馈送到一个或多个全连接层以学习通路之间的相互作用。诸如SigPrimedNet、PiDeeL、GPC-Net、PathDNN、DeepSigSurvNet、consDeepSignaling和Multilevel-GNN(使用KEGG)以及scGO和Liu等人的模型(使用GO)等工具将这种方法应用于癌症分级、生存预测、疾病诊断、药物敏感性和细胞注释等任务。
除了静态通路嵌入,动态和优化调整的模型也允许在训练期间进行自适应网络细化。例如,PathExpSurv采用两阶段训练策略:首先,使用KEGG通路初始化基因-通路连接;然后,引入全连接结构,其中新添加的基因-通路链接通过L1正则化进行修剪。通过迭代训练,识别高置信度的补充连接以扩展通路用于生存风险预测。在另一项研究中,IntNet从KEGG和PathwayCommons中选择基因,并在HumanNet(一个正交定义的基因关系数据库)上执行随机游走重启以计算功能相关性得分。这样,策划的和数据驱动的连接都有助于每个通路的稀疏掩码矩阵。
分层通路嵌入模型利用数据库的层次结构来设计多层网络,其中基因被顺序聚合到较低级别和较高级别的通路中。在KEGG中,BRITE框架根据功能相似性将通路组织成层次结构。基于此参考,XModNN采用包含362个功能通路模块、46个系统模块和6个顶级功能模块的分层模块化网络。每个模块被设计为独立可训练的子网络,通过多损失分层优化来提取特征。类似地,GO的DAG具有分层的“is_a”和“part_of”关系,本质上可转换为层连接,并已广泛应用于各种预测任务,如药物反应(DrugCell、MOViDA)、合成致死性(例如,KDDSL)、细胞生长表型(例如,DCell)和癌症类型预测(GraphGONet)。此外,可以应用定制架构来减少GO术语中的冗余。例如,ParsVNN基于GO术语构建完整的分层网络,然后应用L0范数和群Lasso正则化来修剪不相关的连接,仅保留最具预测性的基因-神经元和子系统-神经元链接。
复杂嵌入模型集成多个子网络,每个子网络使用单层或分层通路嵌入独立处理特定数据模态。例如,SPIN使用KEGG为男性和女性患者的数据创建独立的单层通路嵌入,以捕获生存预测中的性别特异性差异。类似地,c-Triadem是一个用于阿尔茨海默病的PGI-DLA模型,利用Reactome的分层结构构建两个并行子网络,独立处理基因型和基因表达数据。复杂嵌入也可以利用不同的GO类别。MULGONET使用BP和MF分支构建独立的GO分层网络来处理多组学数据,然后融合每个分支的输出进行预测。这种方法将特征重要性映射到分子功能和生物学相关性,从而实现更具信息量的模型解释。
基于通路的图构建
除了将通路知识编码到顺序神经层中,另一类PGI-DLA模型将生物通路概念化为动态的、可计算处理的图,以捕获通路内部和之间的复杂相互作用。根据不同的建模方法,这些架构可分为通路级GNN和基因级GNN。
在通路级GNN中,每个节点代表一个生物通路,边连接具有特定相似性或关系的通路,例如共享的组成基因或组成基因之间已知的相互作用。由于通路注释在主要通路数据库中 readily available,这种策略已被模型广泛采用,如GraphPath(前列腺癌转移)、IRnet(免疫治疗反应)、Burkhart等人的模型(疾病生物化学)、regX(细胞状态概率)、PGLCN(肿瘤突变负荷)和Cox-Path(生存风险)。在训练期间,应用图注意力或卷积来更新节点表示,捕获复杂的通路间影响。为了推导通路图的全局表示,这些模型使用全局注意力池化、特征连接或平均,将得到的表示馈送到多层感知机(MLP)中进行最终预测。
在基因级GNN中,每个通路被表示为一个独立的子图,基因作为节点,边反映它们的生物相互作用。例如,PathGNN为每个Reactome通路创建一个图,并使用图卷积神经网络来嵌入通路。这些嵌入与临床特征连接,并馈送到全连接神经网络中进行生存预测。类似地,DRPreter嵌入KEGG通路,将它们与药物特征嵌入结合以预测药物反应。可以采用更复杂的图结构来推断复杂的通路关系。MCDHGN利用MSigDB中多样化的基因集注释构建异质GNN来预测癌症驱动基因,节点代表基因、通路和基因集,边代表基因-基因关系和基因-基因集映射。为了学习多尺度细胞表示,Cell Decoder利用来自MSigDB和Reactome的先验知识构建子图,每个子图具有特定的节点类型(例如,基因或通路)和边(例如,用于基因GNN的PPI或用于通路GNN的层次关系)。在训练期间,Cell Decoder在同一子图内执行层内传播,并在不同子图之间执行层间聚合,以实现分层信息集成。在另一项研究中,DISHyper采用超图神经网络(HGNN)来建模先验基因集。与连接节点对的传统边不同,HGNN中的超边可以链接多个节点,允许单个超边代表整个基因集。这一特性使DISHyper能够捕获高阶基因关联,并揭示传统GNN可能忽略的邻域信息。
基于Transformer的通路建模
最初为自然语言处理设计的Transformer架构通过自注意力建模长程依赖关系,它不假设固定的输入顺序,并直接计算任何数据对之间的关联强度。这种架构已被应用于通路建模,其中生物通路被视为“句子”,其组成基因或子通路被视为“单词”,从而能够对复杂的生物通路相互作用进行建模。例如,DeePathNet采用两层堆叠的Transformer编码器来建模癌症通路之间的依赖关系。第一层应用自注意力来整合全局通路相互作用,捕获直接相互作用模式。第二层建模高阶调控关系,例如多通路协同、间接依赖和跨通路抑制。为了纳入额外的生物先验,PathMethy引入了CrossTalk Transformer编码器,它将通路相互作用矩阵作为注意力偏置引入传统的多头自注意力机制。该矩阵捕获跨样本的协调甲基化模式,并引导模型关注具有潜在协同作用的通路对。
基于Transformer的架构也用于多模态数据集成。例如,MMP和SURVPATH将组织学图像和通路嵌入组合作为Transformer输入进行生存预测。大规模Transformer嵌入会带来显著的计算负担,需要加以缓解。SURVPATH通过消除图像片段内部资源密集的相互作用,仅保留通路之间以及通路与图像片段之间的相互作用来降低复杂性。相比之下,MMP在执行注意力计算之前进行无监督聚类,将图像块分组为少量核心模式。Pathformer将多组学数据与通路注释集成。在其核心输入矩阵中,行代表生物通路,列对应来自不同组学层的特征。这种结构允许Pathformer采用独特的“交叉注意力”机制,通过列向注意力分析通路串扰,通过行向注意力分析组学特征之间的内在调控模式。
架构范式的比较分析
稀疏DNN/VNN在参数效率方面表现出色。例如,P-NET仅用71,000个参数就实现了预测前列腺癌状态的AUC为0.93,与全连接网络中的2.7亿个参数相比减少了3,800倍。GraphGONet仅用23,900个参数就匹配了密集MLP的准确度(AUC ≈ 0.94–0.95);而PONET仅使用类似工具Pathomic Fusion参数的1.6%,就在癌症诊断方面取得了显著改进。虽然这些模型在小样本情况下表现出优越的性能,但很少有模型应用于大队列研究(例如,n>1000),考虑到当前的模型设置,这引发了对其可扩展性的担忧。此外,尽管基于通路的输入处理和信息流对生物学和临床转化具有指导意义,但这种架构的刚性可能会限制复杂的非线性学习,从而影响它们在大数据集上的应用。
与DNN/VNN相比,通路驱动的GNN通常具有更高的参数数量,因此需要更多的样本进行训练。例如,具有超过两百万条边的异质网络MCDHGN利用超过6,000个样本进行训练。给定足够的训练数据,基于GNN的模型可以实现高性能。与P-NET预测任务相似的模型GraphPath实现了0.933的AUC,比后者提高了3-5%。IRnet在预测免疫治疗反应方面实现了0.6-0.95的AUC,比基线ML模型提高了3-25%。尽管GNN经常用于建模生物和临床问题,但基于网络的架构对于临床采用来说不太直接,因为临床采用需要可以分离作为生物标志物的独立基因产物。
Transformer模型在大规模多组学数据集上展示了强大的可扩展性和高性能。这是由于Transformer的性质,其中输入的顺序和网络结构(例如,编码器/解码器块的数量)可以是灵活的。例如,DeePathNet使用通路编码器处理和整合来自大队列癌症研究(例如,TCGA和CPTAC)的多组学数据,以预测癌症药物反应;每种数据模态具有超过20,000个特征。它在23种癌症类型中的药物反应预测准确度>0.95,显著优于基线随机森林模型。在另一项研究中,基于Transformer的Pathformer在预测癌症预后和药物敏感性方面优于其他18个模型,包括ML方法和基于稀疏DNN/VNN的模型。尽管性能优越,但Transformer模型对于临床或机制转化不太直接,因为通路相互作用不能仅从架构直观看出,必须依赖外部解释工具,如SHAP。
通路引导模型的可解释性分析
对于PGI-DLA模型,具有生物学意义的解释与预测准确性同样重要。这一需求推动了多种模型解释技术的发展,分为事后解释和内在解释方法。
事后可解释性技术
事后方法在训练后分析模型的行为,使用外部工具追踪输入特征或中间节点如何对预测做出贡献。这些方法具有高度灵活性,适用于像GNN和Transformer这样的复杂模型。它们能够在局部或全局解释的背景下对特征重要性进行定量分析,而无需修改原始模型架构。
DeepLIFT被广泛用于追踪特征重要性。它为每个神经元建立基线激活(例如,中性输入),计算转换到实际输入时的激活差异,并通过类似反向传播的过程将此差异分配给输入特征。每个特征收到一个“贡献分数”,反映其相对于基线对输出的正面或负面影响。虽然计算效率高,但DeepLIFT对单一基线的依赖可能限制其在异构数据集上的灵活性。
另一种流行的解释算法SHAP,将基线参考建立为数据集的平均预测。然后通过评估所有可能的特征子集组合来推导每个特征的边际贡献。SHAP基于这些组合提供了更彻底的特征重要性评估,尽管计算成本更高。
基于梯度的算法也支持事后解释。积分梯度(IG)通过沿着从基线(例如,无突变状态)到实际输入(例如,患者的基因突变谱)的路径累积梯度来计算特征贡献。Grad-CAM最初设计用于解释CNN模型,已被DRPreter改编用于识别与药物反应相关的关键基因,并被Cell Decoder用于识别区分不同细胞类型的基因特征和通路。为了增强基于梯度的解释的稳定性和清晰度,SmoothGrad多次向输入添加随机噪声,计算每个噪声版本的梯度,并对结果进行平均以产生稳健的归因。例如,DeepSigSurvNet使用SmoothGrad识别与癌症患者生存相关的通路(例如,mTOR和PI3K-Akt),而consDeepSignaling使用它来突出抗癌药物反应中的ErbB和Ras信号通路。
层间相关性传播(LRP)将预测分数从输出层向后追踪到输入层,将最终预测按比例分布在层、神经元和输入特征之间。这种特定于层的解释是解释PGI-DLA模型的一个关键优势,其中通路被组织为单隐藏层或分层。例如,DTox应用LRP解释其药物毒性预测模型,并将TP53和MAPK通路与特定毒性机制联系起来。XModNN使用LRP精确定位与神经母细胞瘤耐药性相关的关键通路,如MAPK和PI3K。
此外,还为GNN PGI-DLA模型开发了专门的特性解释工具。其中一个工具是GNNExplainer,它识别驱动模型输出的关键连接和局部图模式。其核心机制学习图结构上的掩码,以最大化原始GNN预测与从掩码子图得出的解释之间的互信息。PGLCN使用GNNExplainer来突出预测胃癌突变负荷所必需的图结构。
最近的系统性基准测试从多个维度评估了这些方法。SHAP被证明具有最高的理论严谨性和跨模型适用性,尽管计算成本更大;GNNExplainer为基于图的通路模型提供了最佳的结构解释;DeepLIFT和IG提供了平衡性能和实现简单性的高效替代方案;LRP展示了强大的层间可追溯性,特别适用于分层通路网络;SmoothGrad在基于梯度的可视化任务中实现了卓越的忠实度。这些评估表明,方法选择应考虑模型架构、计算资源和具体解释目标。
内在可解释架构
具有可解释架构的PGI-DLA模型将生物知识直接嵌入其设计中,使得决策过程透明,而无需依赖外部工具。具体来说,所有的节点和层,以及它们的权重、偏置和激活状态,都被赋予了生物学意义。例如,GraphGONet、PASNet、DeepBINN和BioVNN根据通路数据库或知识图谱将基因映射到通路或GO术语以及更高级别的生物学概念,使得网络组件的重要性可以通过训练得到的参数(例如,权重或导数)来反映。由于Transformer框架避免了维度缩减,使用Transformer的PGI-DLA模型可以将所有输入特征映射到注意力层进行特征重要性解释。例如,在TOSICA(一种基于Transformer的细胞类型注释工具)中,具有生物学相关性的基因、通路或调控子不仅在模型训练期间被识别,而且被优先考虑以对最终预测做出贡献。此外,像变分自编码器(VAE)这样传统上可解释性较差的抽象嵌入模型,已经通过通路引导的架构得到了改进。在VEGA(通过基因注释增强的VAE)中,解码器连接(潜在变量到基因)由通路数据库中基因模块成员资格引导,其中权重可用于对生物模块内的基因重要性进行排序。
最终用户视角和实验验证
最终用户以不同的方式与PGI-DLA可解释性输出交互。对于临床医生,稀疏可见神经网络提供了直观的解释,因为每个节点对应于已知的生物实体(基因或通路),使得能够通过诸如“由PI3K/AKT通路激活驱动的高风险”等过程进行直接追踪。此外,事后方法,如SHAP和LRP,提供定量的特征重要性,从而提供有价值的基因特异性或患者特异性解释。对于生物学家,内在的通路约束揭示了用于实验跟踪的激活子系统,而事后方法量化相对重要性并优先研究目标。这些方法是互补的,对于机制假设生成很有价值。多项研究已经证明了PGI-DLA假设的实验验证:P-NET将MDM4鉴定为前列腺癌的治疗靶点,并通过CRISPR敲除实验验证;IBPGNET预测了PSMC1/PSMD11在肺癌中的致癌作用,敲低实验证实显著降低细胞增
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号