基于DNA甲基化与机器学习的鳞状细胞癌及尿路上皮癌组织起源精准分类研究

【字体: 时间:2025年06月09日 来源:Clinical Epigenetics 4.8

编辑推荐:

  本研究针对鳞状细胞癌(SCC)和尿路上皮癌(BLCA)组织起源鉴别难题,通过靶向测序分析突变特征,并基于Illumina甲基化芯片数据,采用CatBoost算法构建了包含106个特征的DNA甲基化分类模型。该模型在训练集准确率达98.79%,对原发性和转移性肿瘤的鉴别准确率分别为89.66%和71.88%,成功解决了传统病理学难以区分不同部位SCC的临床困境,为癌症原发灶不明(CUP)患者的精准诊疗提供了新工具。

  

在肿瘤诊疗领域,癌症原发灶不明(CUP)始终是临床面临的重大挑战。这类患者约占所有恶性肿瘤的3-5%,由于无法确定肿瘤起源部位,传统治疗方案往往效果不佳,中位生存期不足1年。尤其值得注意的是,中国患者中鳞状细胞癌(SCC)占比高达20-30%,远高于西方人群。然而,不同解剖部位(如肺、头颈、食管、宫颈)的SCC在组织形态和免疫组化特征上高度相似,传统病理学手段难以鉴别,更棘手的是尿路上皮癌(BLCA)在转移过程中常出现鳞状分化,进一步增加了诊断难度。

为解决这一临床痛点,复旦大学附属肿瘤医院联合杭州华大基因研究中心开展了一项突破性研究。研究人员首先通过靶向下一代测序(NGS)分析520个癌症相关基因,发现不同部位SCC的突变谱高度重叠,均涉及TP53、PIK3CA等基因变异,且肿瘤突变负荷(TMB)和微卫星状态(MSI)无显著差异。这证实了DNA突变特征无法用于组织起源鉴别。

研究团队转而聚焦DNA甲基化这一具有组织特异性的表观遗传标记。他们整合TCGA Pan-CanAtlas数据库中1651例样本的450K甲基化芯片数据,涵盖肺鳞癌(LUSC)、头颈鳞癌(HNSCC)、食管鳞癌(ESCC)、宫颈鳞癌(CESC)和膀胱尿路上皮癌(BLCA)五种肿瘤类型。通过Limma差异分析和ROC曲线筛选特征位点,并比较16种机器学习算法后,最终选择CatBoost构建分类模型。该算法能有效处理特征交互、减少过拟合,在内部验证集达到98.79%的惊人准确率,各肿瘤类型的AUC值均超过0.96。

关键技术方法包括:1) 从福尔马林固定石蜡包埋(FFPE)组织中提取DNA进行靶向NGS测序;2) 使用Illumina 450K/EPIC芯片检测甲基化谱;3) 通过ChAMP和sesame软件包进行数据预处理;4) 采用10折交叉验证训练CatBoost模型;5) 在391例公共数据集和129例本地样本中进行多中心验证。

主要研究结果如下:
DNA mutational landscape分析
26例CESC、20例HNSCC、44例LUSC等样本的NGS数据显示,所有SCC亚型均高频突变TP53(72-89%)、CDKN2A(28-45%)等细胞周期调控基因。COSMIC特征分析显示APOBEC胞苷脱氨酶(C>T)是主要突变模式,但缺乏亚型特异性。

甲基化分类器构建

CatBoost在16种算法中表现最优(准确率98.10%),筛选出的106个甲基化标志物能清晰区分五种肿瘤。

验证性能
在119例本地样本中,对原发灶的鉴别准确率达84.87%。特别在10例复杂CUP病例中,甲基化分类与90基因表达检测结果一致率80%,且对RNA质量不合格样本仍能准确分类。

讨论与意义
该研究首次建立了针对SCC/BLCA的甲基化分类系统,其临床价值体现在:1) 突破传统病理学局限,对原发灶不明患者实现88-95%的准确分类;2) 甲基化检测对样本质量要求低于RNA测序,更适合临床推广;3) 模型仅需106个位点,未来可开发成PCR试剂盒。研究团队已将本地甲基化数据上传至国家基因组数据中心(NGDC),为后续转化研究奠定基础。

这项发表于《Clinical Epigenetics》的成果,为SCC的精准诊疗提供了全新范式。正如研究者Min Ren等指出,该分类器有望纳入临床指南,指导CUP患者的靶向治疗选择,最终改善这类"诊断孤儿"患者的生存预后。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号