
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨平台DNA甲基化分类框架crossNN:可解释性神经网络助力肿瘤精准诊断
【字体: 大 中 小 】 时间:2025年06月07日 来源:Nature Cancer 23.5
编辑推荐:
本研究针对DNA甲基化肿瘤分类中平台兼容性差、特征空间固定的技术瓶颈,开发了基于神经网络的crossNN框架。该模型通过随机掩码训练策略,实现了对450K/EPIC微阵列、纳米孔测序(nanopore)、靶向甲基化测序(targeted methyl-seq)和全基因组甲基化测序(WGBS)等多平台数据的统一解析,在5,000余例样本验证中达到99.1%的脑肿瘤分类精度。其轻量化架构兼具可解释性,能揭示CpG位点与肿瘤亚型的线性关联,为跨平台分子诊断树立新标准。
在精准医疗时代,DNA甲基化图谱已成为肿瘤分子分型的"金标准",特别是在中枢神经系统(CNS)肿瘤领域,世界卫生组织(WHO)已将其纳入诊断标准。然而现有分类器严重依赖Illumina微阵列平台固定的特征空间,难以兼容新兴的纳米孔测序等低成本技术。更棘手的是,不同平台覆盖的CpG位点差异巨大——从微阵列的45万探针到纳米孔测序的随机稀疏覆盖,使得跨平台分类成为亟待突破的技术瓶颈。
德国柏林夏里特医学院联合欧洲多中心团队在《Nature Cancer》发表的研究,开发了名为crossNN的可解释神经网络框架。该模型通过创新的随机掩码训练策略(99.75%掩码率),在2,801例脑肿瘤甲基化数据训练后,不仅能兼容六种检测平台,还揭示了CpG位点与肿瘤亚型的生物学关联。研究进一步扩展构建了涵盖178种肿瘤的泛癌分类器,在5,379例独立验证中保持97.8%的精度,为癌症溯源诊断提供了通用解决方案。
关键技术包括:1) 使用450K微阵列数据构建基准训练集(2,801例/82亚型);2) 开发单层感知器神经网络,采用二元化编码(β值>0.6为甲基化)和随机特征掩码;3) 整合纳米孔R9/R10、靶向甲基化测序和WGBS等多平台验证队列(2,090例);4) 通过权重分析解析关键CpG位点的生物学意义。
模型开发与工作流程
研究采用单层全连接神经网络架构,输入层直接对接366,263个二元化CpG特征。通过五折交叉验证(5xCV)证实,在甲基化类别(MC)和甲基化类别家族(MCF)水平分别达到96.11%和99.07%的准确率,显著优于随机森林(RF)模型。
独立跨平台验证
在纳米孔低深度全基因组测序(low-pass WGS)数据中,尽管平均仅覆盖1,000个CpG位点(较微阵列减少99.7%),模型仍保持91%的MC分类准确率。平台特异性截断值分析显示,微阵列和测序平台分别适用0.4和0.2的置信阈值。
模型可解释性突破
权重分析揭示了关键生物学机制:1) 髓母细胞瘤(MB)Wnt亚型中Wnt通路相关CpG富集;2) 少突胶质细胞瘤特征性LDHA启动子高甲基化;3) 星形母细胞瘤标志基因MUM1(PWWP3A)基因体低甲基化模式。正权重特征显著富集于启动子区(OR=1.8),而负权重特征多位于增强子区。
泛癌分类拓展
训练的泛癌模型涵盖8,382例样本/178亚型,在肾透明细胞癌(KIRC)等易混淆肿瘤中仍保持83%的MC分类精度。值得注意的是,鳞状细胞癌因表观遗传相似性需设立"超家族"分类单元。
这项研究开创性地解决了甲基化肿瘤诊断中的"平台壁垒"问题。crossNN的轻量化架构(训练仅需3小时)支持快速迭代,其线性权重矩阵更满足体外诊断器械的监管要求。通过揭示CpG特征与肿瘤发生的内在关联,该框架既服务于临床决策,又为肿瘤生物学研究提供了新视角。随着纳米孔测序等便携技术的发展,这种兼容性强、解释性高的分类范式,或将重塑分子病理诊断的全球实践格局。
生物通微信公众号
知名企业招聘