
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释深度学习的炎症性肠病分层医学研究:从基因到变异的分子机制解析
【字体: 大 中 小 】 时间:2025年07月26日 来源:Genome Biology 10.1
编辑推荐:
本研究针对炎症性肠病(IBD)分子分型难题,开发了四种新型神经网络架构(NNbiosparse/NNDO/GCNmutlist/CNNHC),通过全外显子测序(WES)数据实现了克罗恩病(CD)与溃疡性结肠炎(UC)的精准区分。研究创新性地提出基因中心编码与变异级希尔伯特曲线编码策略,结合生物知识引导的稀疏化设计,模型预测性能显著优于基线方法(MCC 0.45)。通过可解释AI技术揭示了ADCY7、RIPK2等关键基因及白细胞迁移等通路在IBD亚型中的特异性作用,为精准医疗提供了新工具。
炎症性肠病(IBD)作为复杂的慢性肠道炎症性疾病,其亚型克罗恩病(CD)和溃疡性结肠炎(UC)的临床鉴别始终面临挑战。当前基于临床症状的分类标准存在10-15%的"不确定性结肠炎"诊断困境,而单基因关联研究难以捕捉疾病异质性。更棘手的是,各类生物制剂如抗TNFα疗法存在30%无应答率,凸显了现有分子分型体系的不足。这种"一刀切"的治疗模式,促使科学家们寻求更精确的遗传标记来指导分层治疗。
比利时鲁汶大学(ESAT-STADIUS, KU Leuven)联合意大利都灵大学的研究团队在《Genome Biology》发表突破性研究。团队开发了四种创新的神经网络架构,通过处理2036例CD、1215例UC和480例健康对照的全外显子测序(WES)数据,首次实现了基于深度学习的IBD分子分型。研究采用三大技术路线:基因中心编码结合生物通路稀疏化神经网络(NNbiosparse)、突变列表编码的图神经网络(GCNmutlist)和基于希尔伯特曲线空间填充的稀疏卷积网络(CNNHC),其中CNNHC以65,536×65,536像素图像编码全基因组变异信息。
METHODOLOGY
研究创新性地设计了三种数据编码策略:传统基因中心编码将变异按18种功能类别聚合到23,177个人类基因;新型突变列表编码为每个变异构建10维特征向量;希尔伯特曲线编码则将基因组位置映射为二维图像。NNbiosparse通过KEGG通路数据库构建生物知识引导的稀疏连接,将基因神经元与346个通路神经元关联。
Results
性能评估显示:CNNHC与NNDO显著优于线性模型(p<0.01),最佳MCC达0.452。NNbiosparse解释性分析揭示CD亚型关键通路包括甲状旁腺激素信号(含ADCY7基因)和EB病毒通路,UC亚型主要关联白细胞迁移和紧密连接通路。基因网络分析发现16个核心预测基因中,ACDY7、PLCG2和PDGFB与已知GWAS集群显著关联(z-score 5.31)。SHAP分析定位到RIPK2基因第90,781,953位内含子变异的关键作用。
讨论与结论
该研究突破了传统单变量分析的局限,首次实现WES数据的端到端深度学习解析。NNbiosparse通过整合KEGG通路知识,在保持性能的同时增强生物可解释性,其发现的ADCY7-cAMP-TNFα调控轴为免疫调节提供了新视角。值得注意的是,不同模型识别的预测基因集重叠有限,提示IBD可能存在多组分子机制。转录组验证显示50%预测基因在肠道组织中差异表达,如PDGFB在结肠炎患者中显著上调(p=4.1×10-13)。
这项研究为复杂疾病的分子分型树立了新范式:生物知识引导的模型设计平衡了性能与可解释性,希尔伯特曲线编码展现了处理全基因组数据的潜力。未来可扩展应用于治疗反应预测,推动IBD诊疗进入真正的精准医学时代。团队已公开源代码,为后续研究提供重要工具基础。
生物通微信公众号
知名企业招聘