基于机器学习推导的 DNA 甲基化模块对生发中心来源 B 细胞淋巴瘤进行亚组分类

【字体: 时间:2025年03月11日 来源:Leukemia 12.8

编辑推荐:

  为解决 FL 和 DLBCL 基于 DNA 甲基化的亚组分类难题,研究人员开展相关研究,识别出 300 个 CpG 位点,为淋巴瘤分类提供新依据。

  淋巴瘤,作为血液系统的常见肿瘤,严重威胁着人类健康。其中,滤泡性淋巴瘤(Follicular lymphoma,FL)和弥漫大 B 细胞淋巴瘤(Diffuse large B - cell lymphoma,DLBCL)是最为常见的两种类型,它们都源自生发中心的 B 细胞(germinal center - derived B - cells,gcBCs)。DLBCL 既可能新发,也可能由像 FL 这样的低级别淋巴瘤转化而来。然而,这两种淋巴瘤在临床结局、形态学、免疫表型、遗传学、转录组学以及其他生物学方面都存在高度的异质性。就 FL 而言,除了经典的携带 IGH::BCL2 易位的类型外,还有多种具有不同形态和遗传特征的亚型。对于 DLBCL,虽然可以根据细胞起源(cell - of - origin,COO)基因表达特征将其分为生发中心 B 细胞样(germinal center B - cell - like,GCB)和活化 B 细胞样(activated B - cell - like,ABC)亚型,也有研究基于突变情况识别出不同的 DLBCL 簇并与临床结局相关联,但在肿瘤分类中发挥重要作用的 DNA 甲基化(DNA methylation,DNAme),在 FL 和 DLBCL 的亚组分类应用上却进展缓慢。正是在这样的背景下,为了攻克这一难题,来自德国乌尔姆大学和乌尔姆大学医学中心、西班牙格拉纳达大学等多个机构的研究人员展开了深入研究。该研究成果发表在《Leukemia》杂志上,为淋巴瘤的分类和研究开辟了新的方向。
研究人员运用了多种关键技术方法。首先,从国际癌症基因组联盟多发性骨髓瘤和髓系肿瘤测序(ICGC MMML - Seq)联盟纳入的 177 例分子特征明确的 gcBC 淋巴瘤病例中提取 DNA,进行基于 BeadChip 芯片的 DNAme 分析,这些病例包括 85 例 FL、75 例 DLBCL 和 17 例 FL - DLBCL。接着,使用表型 - 基因型多对多关系分析(Phenotype - Genotype Many - to - Many Relations Analysis,PGMRA)算法对数据进行处理,该算法是一种无监督机器学习方法,能识别出显著的双聚类特征。之后,通过 k - 均值聚类分析进一步处理数据,最终确定相关的 CpG 模块和甲基化模式。此外,还运用了全基因组测序(whole genome sequencing,WGS)评估肿瘤细胞含量(tumor cell content,TCC),以及进行均匀流形近似和投影(Uniform Manifold Approximation and Projection,UMAP)分析等。

下面来看具体的研究结果。

  1. 识别出 CpG 模块和甲基化模式:研究人员对数据集中 10,000 个最具变异性的 CpG 位点进行标准聚类和降维分析时发现,FL 和 DLBCL 呈现出连续或聚集的状态。于是,他们运用 PGMRA 算法,先筛选出 1938 个 CpG 位点,经分析最终确定了 300 个显著的 CpG 位点。通过 k - 均值聚类,这些 CpG 位点被组织成四个模块(M1 - M4),同时将淋巴瘤样本分为七种不同的甲基化模式(MP1 - MP7)。
  2. 甲基化模式与临床特征的关联:研究人员将甲基化模式与淋巴瘤的流行病学、组织病理学、转录组学和遗传畸变特征进行关联分析。结果显示,MP1 和 MP2 主要由 FL 病例组成,且 MP2 患者的诊断年龄更大,增殖历史更高,单核苷酸变异的突变负荷也更高,这两种模式中 BCL2 重排和 GCB 亚型的频率都很高。MP3 则是 FL、DLBCL 和 FL - DLBCL 病例的混合,其 BCL2 重排病例较少,但 GCB 亚型仍占主导。MP4 - MP7 大多是 DLBCL 病例,其中 MP4 和 MP5 主要是 GCB 亚型,MP6 和 MP7 分别与 ABC 亚型相关,且 MP6 中含有 MYD88 和 / 或 CD79B 突变的病例富集,反映了所谓的 C5/MCD 簇。虽然不同甲基化模式在临床分期或国际预后指数等方面没有显著差异,但 MP1 的淋巴结受累更高。
  3. 肿瘤细胞与旁观者细胞的影响:研究人员利用全基因组测序数据和多个基于 DNAme 的纯度参数评估肿瘤细胞含量。发现 MP3 和 MP4 的肿瘤细胞含量中位数最低,且 MP4 与 MP5 相比,DNA 甲基化水平更低,增殖历史、B 细胞存在比例和肿瘤细胞含量也更低,这与 MP4 中旁观者细胞的预测比例更高相关。
  4. 300 个 CpG 位点在其他淋巴瘤中的应用:通过 UMAP 分析发现,基于这 300 个 CpG 位点,样本能根据组织病理学诊断进行分层,且与之前确定的七种甲基化模式相符。纳入其他常见成熟 B 细胞淋巴瘤数据后发现,Burkitt 淋巴瘤(Burkitt lymphoma,BL)能明显与 DLBCL、FL 等区分开,而结外边缘区淋巴瘤(nodal marginal zone lymphoma,nMZL)甲基化谱异质性高,分散在多个甲基化模式区域。此外,对公开数据集的分析也验证了这些 CpG 位点的有效性,例如原发性中枢神经系统淋巴瘤(primary central nervous system lymphomas,PCNSLs)大多聚集在 MP7。
  5. 300 个 CpG 位点的生物学特征:研究人员对这 300 个 CpG 位点的生物学特征进行研究。发现 M1 - M3 模块在 CpG 岛、gcBCs 中定义的平衡启动子区域以及人类胚胎干细胞系中定义的双价转录起始位点显著富集,且 M3 中 DNA 甲基化水平的增加部分与肿瘤细胞在生发中心经历的细胞周期数相关。M4 模块的 CpG 位点位于增强子、转录区和异染色质区域,虽大多高度甲基化,但对甲基化模式结构有贡献,可能作为淋巴瘤诊断和预后的生物标志物。

综上所述,该研究通过无监督模糊非负矩阵分解方法,在冷冻保存的 FL 和 DLBCL 的 DNA 中识别出 300 个 CpG 位点,将这些淋巴瘤分为不同亚组。这些亚组不仅与已知的突变组相关,还反映了诊断年龄和增殖历史等生物学特征,为淋巴瘤的分类提供了与现有形态学、转录组学或基因改变分类系统互补的信息。此外,这些 CpG 模块和 DNAme 谱还有潜力区分其他 gcBC 淋巴瘤以及非恶性(前体)B 细胞群体。如果在独立队列中得到验证,该研究中使用的 PGMRA 方法和确定的 CpG 位点集,未来可能会像在其他肿瘤实体中一样,推动 DNAme 生物标志物在常见淋巴瘤中的应用,为淋巴瘤的精准诊断和治疗带来新的契机。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号