基于甲基化DNA测序数据同步提取DNA甲基化与拷贝数信息以改进循环肿瘤DNA分析
《npj Precision Oncology》:Improved circulating tumor DNA profiling by simultaneous extraction of DNA methylation and copy number information from methylated DNA sequencing data
【字体:
大
中
小
】
时间:2025年12月16日
来源:npj Precision Oncology 8
编辑推荐:
本研究针对液体活检中cfDNA样本量有限、检测成本高的难题,开发了一种基于MeD-seq测序数据的多模态分析方法。研究人员创新性地利用MeD-seq中的背景 reads构建CNV图谱和TF估计,通过CN-informed差异甲基化模型,在120例CRLM患者中鉴定出1,482个DMRs,显著提高了低ctDNA负荷样本的检测灵敏度。该研究为MRD监测和治疗反应评估提供了经济高效的单检测多信息提取解决方案。
在精准肿瘤学领域,液体活检技术通过分析血液中的循环肿瘤DNA(ctDNA)为癌症的早期检测、预后判断和治疗监测提供了微创手段。然而,这一技术的广泛应用面临两大挑战:一是血浆中循环游离DNA(cfDNA)含量极低,限制了可进行的检测项目数量;二是现有多种检测方法(如突变分析、拷贝数变异检测、甲基化分析等)成本高昂,难以在临床常规开展。更棘手的是,肿瘤患者体内的ctDNA比例(肿瘤分数,TF)存在很大差异,即使在相同疾病分期的患者中也是如此,这给低肿瘤负荷样本的检测带来了巨大困难。
为了解决这些难题,发表在《npj Precision Oncology》上的最新研究提出了一种创新性的解决方案。研究人员开发了一种名为MeD-seq(甲基化DNA测序)的多功能检测平台,能够从单次测序数据中同时提取DNA甲基化信息、染色体拷贝数变异(CNV)和肿瘤分数估计,实现了"一石三鸟"的高效检测。这种方法的独特之处在于,它不仅利用了传统的甲基化reads,还创新性地挖掘了被以往分析方法忽略的背景reads的价值,为cfDNA分析开辟了新途径。
本研究基于120例结直肠癌肝转移(CRLM)患者、5例卵巢癌患者和31名健康献血者的血浆样本,采用MeD-seq技术进行检测。该方法使用甲基化依赖性限制性内切酶LpnPI消化cfDNA,通过特异性识别完全甲基化的CpG位点(识别 motif:CCGG,GCGG,CCGA,ACGG,CCGC,CCGT,TCGG,GCGC),产生约32bp的片段用于测序。关键创新点包括:利用背景reads构建CNV图谱和TF估计;开发CN-informed差异甲基化模型,整合局部CNV信息进行校正;通过bootstrap验证确保DMR检测的稳健性。
MeD-seq背景reads中的LpnPI识别位点偏倚经校正后得到缓解
研究人员首先评估了MeD-seq背景reads是否包含染色体改变信息。他们发现,由于LpnPI消化模式和大小选择的共同作用,MeD-seq背景reads比浅层全基因组测序(sWGS)表现出更强的技术偏倚。背景reads的每bin读数与GC含量(Spearman ρ=0.96,p<0.001)和LpnPI识别位点密度(ρ=0.92,p<0.001)均呈现强相关性。这种升高的GC偏倚源于LpnPI优先消化CpG岛等GC丰富区域中的甲基化CpG位点。
为解决这些偏倚,研究团队应用LOESS回归和MeD-seq正常样本panel生成标准化读数比率(logR)。这种方法有效降低了MeD-seq logR值中的GC偏倚(ρ=0.11,p<0.001)和LpnPI位点偏倚(ρ=0.22,p<0.001)。MeD-seq logR值与sWGS在匹配基因组bin中的比较显示出强相关性(ρ=0.75,p<0.001)和高一致性,支持了MeD-seq背景reads用于基于ichorCNA的拷贝数分析的适用性。
来自MeD-seq的拷贝数图谱和ctDNA负荷估计与sWGS高度一致
研究团队使用MeD-seq背景reads和配对sWGS数据对43个样本进行了ichorCNA分析。他们在相同的21个癌症样本中检测到非零TF(范围:15%-43%),并观察到TF估计值之间存在强相关性(ρ=0.97,p<0.001)。Bland-Altman分析显示TF估计值之间具有高度一致性。使用甲基化reads而非背景reads会导致明显更差的CNV图谱和肿瘤分数估计,表明背景reads包含独立的拷贝数驱动的肿瘤来源信号。
作为TF估计的独立验证,研究人员比较了19个CRLM样本的突变等位基因频率(VAF)。他们观察到基于突变的VAF与MeD-seq(ρ=0.25,p=0.3)和sWGS-based TF估计(ρ=0.44,p=0.06)之间存在弱到中度相关性。在两个样本中,使用NGS panel未检测到突变,而使用ichorCNA在MeD-seq和sWGS数据中均检测到非零TF,表明这些样本含有ctDNA,但存在的体细胞突变未被小NGS panel覆盖。
接下来,研究人员通过比较分配给每个bin的整数CN状态来评估CN图谱的评估者间一致性。该分析显示,对于非零TF样本,平均Cohen's kappa为0.92(范围:0.74-1.00)。使用WGS数据通过ichorCNA鉴定为ctDNA阴性的所有样本,使用MeD-seq数据也被认为是ctDNA阴性,反之亦然,且具有相应的CN图谱。
为了评估测序深度对CNV检测的影响,研究人员通过计算logR值的中位数绝对偏差(MAD)来量化CN图谱中的噪声水平。五个卵巢癌样本在MeD-seq CN图谱中显示出比sWGS显著更高的噪声,研究人员假设这是由于sWGS中更高的测序覆盖度所致。通过将卵巢sWGS样本下采样以匹配MeD-seq覆盖度后,观察到相似的噪声水平,证实了观察到的噪声差异源于测序覆盖度,表明MeD-seq CN图谱的质量与基于sWGS的图谱相似。
在验证了来自MeD-seq的CN图谱和TF估计后,研究人员分析了120个CRLM样本中27,931个CpG岛的甲基化谱,并与31名健康献血者(HBD)进行比较。他们评估了两个模型:CN-naive差异甲基化模型和CN-informed模型,后者整合了CN改变,使用ichorCNA logR值来调整预期甲基化reads计数的变化。
CN-informed模型识别出1,482个差异甲基化区域(DMRs)(FDR调整后p值<0.05),包括1,029个(69%)高甲基化和453个(31%)低甲基化区域。CN-naive模型识别出1,589个DMRs,包括1,132个(71%)高甲基化和457个(29%)低甲基化区域。高甲基化DMRs主要发现于7号、8q、13号和20号染色体上的CN获得区域,而低甲基化DMRs在CN丢失区域中富集,特别是在8p和18号染色体上。与CN-naive模型相比,CN-informed模型中CpG岛的偏差统计量较低,显示模型拟合度提高。
在识别的DMRs中,1,370个在两个模型中一致,logFC值强相关。然而,CN-informed模型检测到112个额外的DMRs,并排除了219个可能在CN-naive模型中由CN改变驱动的DMRs。不受CN改变影响的DMRs被CN-naive和CN-informed模型一致识别,并在健康个体和CRLM患者中显示相似的logR分布。相比之下,受CN改变影响的DMRs由于这些基因组改变而显示改变的logFC值。因此,CN-informed模型能够检测在CN-naive分析中被掩盖的额外DMRs。此外,通过使用每个CpG岛的样本特异性logFC值调整CN变异,CN-informed模型去除了由CN-naive模型识别的假阳性DMRs。
CNV分析识别ctDNA高样本,提高差异甲基化检测效能
为了研究肿瘤分数(TF)对甲基化谱的影响,研究人员根据IchorCNA估计将120个CRLM样本分为65个高TF(≥5%)和55个低TF(<5%)样本。将CN-informed模型应用于每个子集,使用31名HBD作为对照来识别DMRs。对55个低TF样本的分析仅产生一个高甲基化DMR,表明在该组中检测差异甲基化的能力有限。为确定这是否由于样本量所致,他们通过从完整队列中随机选择55个样本进行bootstrap分析,以匹配低TF子集的大小。该分析导致检测到44个DMRs,表明肿瘤负荷(因而效应大小)而非样本量是限制因素。此外,从高TF子集中bootstrap 55个样本产生强得多的信号,检测到总共1,016个DMRs,突出了仅分析高TF样本时增加的统计效能。
由于DMR调用似乎受样本中存在的肿瘤分数(TF)影响,研究人员随后专注于使用高TF子集识别的DMRs。对于每个DMR,他们确定了归一化、CN校正和log转换的reads计数与相应的ichorCNA TF估计之间的Spearman相关性。应用单侧检验,使用logFC的符号确定预期相关性的方向。这识别出66个显著正相关性(FDR调整后p<0.05),介于肿瘤分数和DMRs中的归一化reads计数之间。此外,跨检测到的DMRs的归一化甲基化计数的主成分分析(PCA)揭示了CRLM和HBD样本之间的清晰分离。值得注意的是,第一主成分(PC1)显示与肿瘤分数正相关(ρ=0.64,p<0.001),表明由肿瘤来源的甲基化信号驱动的梯度。
为探索肿瘤相关甲基化变化的分布,计算了每个样本中映射到高或低甲基化DMRs的总reads比例。正如预期,与HBD相比,高TF样本在高甲基化DMRs中具有更大比例的reads(p<0.001),在低甲基化DMRs中比例降低(p<0.001)。有趣的是,尽管DMRs仅使用高TF样本识别,但低TF样本也显示相似趋势——与HBD相比,高甲基化DMRs中reads比例升高(p<0.001),低甲基化DMRs中比例降低(p<0.001)。
为验证cfDNA来源DMRs的生物学相关性,研究人员在来自癌症基因组图谱(TCGA)的结肠腺癌(COAD)和直肠腺癌(READ)的组织基450k阵列数据中评估了它们。低甲基化DMRs显示COAD和READ的低中位数β值,与对应于所有其他CpG岛的β值相当。相比之下,高甲基化DMRs在COAD和READ中显示比所有其他CpG岛显著更高的中位数β值。跨所有CpG岛,来自MeD-seq差异甲基化模型的logFC值与COAD平均β值(Spearman ρ=0.69,p<0.001)和READ(Spearman ρ=0.68,p<0.001)正相关,进一步证实MeD-seq捕获肿瘤相关甲基化变化。
此外,研究人员将1,016个DMRs与先前发表的肿瘤相关甲基化标记进行比较,观察到实质性重叠:DMRs列表包括22个先前报告和验证的cfDNA中CRC标记中的18个(82%),以及肿瘤组织中COAD的424个标记中的170个(40%)和READ的267个标记中的139个(52%)。这些发现表明,模型检测到的DMRs对应于已知的肿瘤特异性甲基化变化,支持cfDNA基方法的生物学相关性。
最后,研究人员检查了肿瘤分数估计与映射到高或低甲基化DMRs的reads比例之间的关系。他们通过在每个bootstrap迭代中识别DMRs并使用袋外(OOB)样本计算相关性来执行bootstrap验证。映射到高甲基化DMRs的reads比例显示与肿瘤分数估计显著正相关(中位数ρ=0.36,经验p=0.001),而低甲基化DMR reads比例显示中度负相关(中位数ρ=-0.22,经验p=0.047)。
本研究评估了一种利用MeD-seq测序数据从cfDNA中同时进行甲基化和染色体CN分析及TF估计的新方法。研究表明,从MeD-seq提取与sWGS高度相似的CN图谱和TF估计是可行的。此外,将CN和TF信息与甲基化分析相结合,能够识别与CRLM患者肿瘤负荷相关的额外DMRs。
研究人员利用MeD-seq数据的背景reads推导CN图谱和TF估计,使用ichorCNA模型,无需改变检测的实验方案。这减少了对额外生物材料的需求,并为常规进行的MeD-seq实验增加了相关信息。尽管MeD-seq数据存在由于LpnPI消化导致的偏倚,但这种偏倚可以一致地减少,从而产生CN图谱,这些图谱可以使用每个样本总测序30百万reads的2.5%样本覆盖度构建。由此产生的CN图谱提供了每样本基因组见解,可支持CRLM患者的进一步表征。
CN图谱数据的另一个用途是将其整合到差异甲基化模型中。在MeD-seq中,差异甲基化基于LpnPI消化的DNA片段计数,这可能受染色体改变(如获得和丢失)的影响。由于CN改变和变化的TF在癌症中常见,整合这些信息有助于减少因潜在CN改变而误解差异甲基化信号的可能性。为此,研究人员在建模过程中加入了读数比率值作为归一化,从而检测到额外的DMRs,并去除了可能由CN改变引起的假DMRs。
通过联合分析CNV和甲基化,研究人员获得了一种独立策略,用于在同一实验中选择具有足够ctDNA进行DMR识别的患者样本。此外,基于CN的ctDNA负荷估计可以与DMRs的甲基化谱相关联,以评估甲基化变化是否确实与肿瘤相关。尽管拷贝数和甲基化谱都反映肿瘤含量,但它们的整合是协同的:CN数据支持偏倚校正和样本分层,从而改进DMR检测,而甲基化捕获独立于染色体改变的肿瘤特异性信号。因此,结合两者可全面提高ctDNA检测和定量的性能。
研究人员发现,专注于ctDNA高样本可导致DMRs的稳健识别。该策略能够识别生物学验证的DMRs,随后区分低TF患者(那些仅通过拷贝数分析TF不可检测的患者)与健康献血者。这表明即使染色体改变低于检测阈值,MeD-seq也能捕获肿瘤特异性甲基化信号,说明了多模态分析的附加价值。这些结果共同展示了MeD-seq数据的多模态分析如何能够改进跨不同疾病负荷水平的肿瘤来源甲基化变化的检测。
从单一低成本检测中同时分析拷贝数改变、估计肿瘤分数和检测甲基化变化的能力,对于需要敏感ctDNA检测且样本材料有限的临床场景具有特殊相关性。这些包括根治性治疗后微小残留病(MRD)的监测和通过重复采样纵向监测治疗反应。通过证明MeD-seq能够在低ctDNA负荷样本中识别肿瘤特异性信号,研究人员为这些具有挑战性的临床环境中的未来应用奠定了基础,在这些环境中样本可用性和成本效益是关键限制因素。此外,整合CN-informed建模通过校正可能混淆甲基化信号的基因组改变,减少假阳性,从而提高检测到的DMRs的特异性。
这里提出的方法学进展代表了向更信息丰富、可解释且经济高效的cfDNA基诊断迈出的一步。扩展MeD-seq应用至多样化癌症类型对于进一步评估其临床效用和作为成本效益高、非侵入性诊断工具的潜力至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号