基于可解释深度学习的炎症性肠病分层医学研究:从基因到变异的分子机制解析

【字体: 时间:2025年07月26日 来源:Genome Biology 10.1

编辑推荐:

  本研究针对炎症性肠病(IBD)分子分型难题,开发了四种新型神经网络架构(NNbiosparse/NNDO/GCNmutlist/CNNHC),通过全外显子测序(WES)数据实现了克罗恩病(CD)与溃疡性结肠炎(UC)的精准区分。研究创新性地提出基因中心编码与变异级希尔伯特曲线编码策略,结合生物知识引导的稀疏化设计,模型预测性能显著优于基线方法(MCC 0.45)。通过可解释AI技术揭示了ADCY7、RIPK2等关键基因及白细胞迁移等通路在IBD亚型中的特异性作用,为精准医疗提供了新工具。

  

炎症性肠病(IBD)作为复杂的慢性肠道炎症性疾病,其亚型克罗恩病(CD)和溃疡性结肠炎(UC)的临床鉴别始终面临挑战。当前基于临床症状的分类标准存在10-15%的"不确定性结肠炎"诊断困境,而单基因关联研究难以捕捉疾病异质性。更棘手的是,各类生物制剂如抗TNFα疗法存在30%无应答率,凸显了现有分子分型体系的不足。这种"一刀切"的治疗模式,促使科学家们寻求更精确的遗传标记来指导分层治疗。

比利时鲁汶大学(ESAT-STADIUS, KU Leuven)联合意大利都灵大学的研究团队在《Genome Biology》发表突破性研究。团队开发了四种创新的神经网络架构,通过处理2036例CD、1215例UC和480例健康对照的全外显子测序(WES)数据,首次实现了基于深度学习的IBD分子分型。研究采用三大技术路线:基因中心编码结合生物通路稀疏化神经网络(NNbiosparse)、突变列表编码的图神经网络(GCNmutlist)和基于希尔伯特曲线空间填充的稀疏卷积网络(CNNHC),其中CNNHC以65,536×65,536像素图像编码全基因组变异信息。

METHODOLOGY
研究创新性地设计了三种数据编码策略:传统基因中心编码将变异按18种功能类别聚合到23,177个人类基因;新型突变列表编码为每个变异构建10维特征向量;希尔伯特曲线编码则将基因组位置映射为二维图像。NNbiosparse通过KEGG通路数据库构建生物知识引导的稀疏连接,将基因神经元与346个通路神经元关联。

Results
性能评估显示:CNNHC与NNDO显著优于线性模型(p<0.01),最佳MCC达0.452。NNbiosparse解释性分析揭示CD亚型关键通路包括甲状旁腺激素信号(含ADCY7基因)和EB病毒通路,UC亚型主要关联白细胞迁移和紧密连接通路。基因网络分析发现16个核心预测基因中,ACDY7、PLCG2和PDGFB与已知GWAS集群显著关联(z-score 5.31)。SHAP分析定位到RIPK2基因第90,781,953位内含子变异的关键作用。

讨论与结论
该研究突破了传统单变量分析的局限,首次实现WES数据的端到端深度学习解析。NNbiosparse通过整合KEGG通路知识,在保持性能的同时增强生物可解释性,其发现的ADCY7-cAMP-TNFα调控轴为免疫调节提供了新视角。值得注意的是,不同模型识别的预测基因集重叠有限,提示IBD可能存在多组分子机制。转录组验证显示50%预测基因在肠道组织中差异表达,如PDGFB在结肠炎患者中显著上调(p=4.1×10-13)。

这项研究为复杂疾病的分子分型树立了新范式:生物知识引导的模型设计平衡了性能与可解释性,希尔伯特曲线编码展现了处理全基因组数据的潜力。未来可扩展应用于治疗反应预测,推动IBD诊疗进入真正的精准医学时代。团队已公开源代码,为后续研究提供重要工具基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号