基于细胞游离DNA推断370余种转录因子活性可准确反映肿瘤内转录状态
【字体:
大
中
小
】
时间:2025年10月09日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对如何无创评估肿瘤中转录因子(TF)活性这一临床挑战,利用两种人肝癌异种移植模型(HepG2和HuH7)的配对肿瘤/血液样本,比较了基于肿瘤ATAC-seq和血浆cfDNA全基因组测序(WGS)数据推断TF活性的准确性。研究发现,cfDNA覆盖模式可准确推断370余种TF的活性,与ATAC-seq结果高度一致(Spearman相关系数达-0.90和-0.85),且最低需5x测序深度和3%肿瘤分数方可保证准确性。该研究为利用cfDNA无创监测肿瘤特异性TF活性提供了重要方法学基础,对癌症生物学研究和精准医疗具有深远意义。
在癌症研究领域,理解肿瘤细胞内转录因子(Transcription Factor, TF)的激活状态至关重要,因为超过20%的驱动基因或抑癌基因编码TF,例如著名的TP53。此外,某些基因突变(如CTNNB1 gain-of-function突变)可通过激活下游TF(如TCF/LEF家族)促进肿瘤发生。然而,传统获取肿瘤组织进行染色质可及性分析(如ATAC-seq)的方法具有侵入性,难以重复进行,特别是在需要纵向监测治疗反应时。
近年来,液体活检技术,尤其是对血液中细胞游离DNA(cell-free DNA, cfDNA)的分析,为低侵入性肿瘤监测带来了革命性变化。cfDNA的覆盖模式被认为能够反映其细胞来源的染色质状态:被核小体和TF保护的DNA区域不易被血液中的DNase消化,因此在测序中显示出较高的覆盖度;而开放的染色质区域则被消化,导致覆盖度降低。此前,已有研究利用cfDNA全基因组测序(Whole-Genome Sequencing, WGS)数据成功推断出个别TF(如雄激素受体,AR)的活性,并观察到其与癌症亚型和治疗反应的相关性。然而,这种方法是否普遍适用于其他TF和肿瘤类型,其准确性如何,以及哪些关键因素会影响其在临床中的应用效果,这些问题仍有待系统性的评估。
为了回答这些问题,Tamaki等人在《BMC Genomics》上发表了一项研究。他们利用两种具有不同CTNNB1突变状态的人肝癌细胞系(HepG2: CTNNB1功能获得性突变;HuH7: CTNNB1野生型)构建了小鼠异种移植模型。从模型动物中同时收集肿瘤组织和血浆样本,分别进行ATAC-seq、RNA-seq和血浆cfDNA的WGS分析。通过生物信息学方法提取人源读数,并系统比较了基于肿瘤ATAC-seq和血浆cfDNA-WGS数据推断出的TF活性,评估了TF结合位点(Transcription Factor Binding Site, TFBS)数量、测序深度和肿瘤分数(tumor fraction)等因素对推断准确性的影响。
为开展本研究,作者运用了几个关键技术方法:1)利用HepG2和HuH7人肝癌细胞系构建小鼠异种移植模型,获取配对的肿瘤组织和血浆样本;2)对肿瘤组织进行ATAC-seq和RNA-seq,对 pooled 血浆样本中的cfDNA进行WGS;3)使用生物信息学工具(如xengsort)从测序数据中分离出人源读数;4)采用Griffin计算框架,通过分析cfDNA在已知TFBS上的覆盖度(特别是中央覆盖度,central coverage)来推断TF活性;5)使用chromVAR R包分析ATAC-seq数据,以校正全局染色质可及性差异并识别肿瘤特异性TF。
研究结果首先证实了两种模型在体内的生物学差异。Inference of the activation status of two downstream target TFs of the Wnt signaling pathway
RNA-seq数据显示,TCF/LEF家族成员中,TCF7和TCF7L2在两种肿瘤中的表达均高于LEF1和TCF7L1。这与既往体外研究一致,因此选择TCF7和TCF7L2作为Wnt信号通路的下游代表TF。ATAC-seq数据质量可靠,显示出典型的核小体相位模式。分析发现,HepG2肿瘤中TCF7和TCF7L2的TFBS区域染色质可及性显著高于HuH7肿瘤,表明其活性更高。一致地,Wnt信号下游靶基因AXIN2的表达和由13个基因组成的WNT基因特征评分在HepG2中也更高。对血浆cfDNA-WGS数据的分析显示,人源cfDNA的中位片段长度短于小鼠源cfDNA。使用Griffin框架分析证实,阳性对照TF(CTCF)的中央覆盖度降低(活性高),而阴性对照(血液特异性TF LYL1)则无此变化,验证了方法的适用性。重要的是,cfDNA数据同样显示HepG2模型中TCF7和TCF7L2的中央覆盖度低于HuH7模型,表明其活性更高,这与ATAC-seq结论一致。
Comparative analysis of the activation status of 377 TFs
研究人员将分析扩展到377个每个拥有超过10,000个TFBS的TF。结果显示,基于cfDNA-WGS数据计算出的TF中央覆盖度与基于ATAC-seq数据计算出的GC偏差校正信号值之间存在极强的负相关(Spearman相关系数:HepG2为-0.90,HuH7为-0.85)。对TF活性进行排名后发现,TCF7和TCF7L2在HepG2 cfDNA中的排名均高于在HuH7 cfDNA中的排名,这与ATAC-seq数据反映的趋势相同,表明cfDNA能反映肿瘤特异性的TF活性差异。
cfDNA TFBS coverage reflects tumor-specific differences of TF activity
为了识别两种肿瘤模型间差异最大的TF,研究者使用chromVAR分析了ATAC-seq数据,并提取了活性差异最大的前100个TF。无监督聚类分析得到了两种截然不同的TF活性谱,可能反映了模型间的差异。TCF7和TCF7L2均位列其中且在HepG2中活性更高,而许多FOX家族TF则在HuH7中活性更高。将TF分为“HepG2_HIGH”、“HuH7_HIGH”和“Others”三组后,比较cfDNA中央覆盖度的z-score值,发现“HepG2_HIGH”和“HuH7_HIGH”两组在两种肿瘤间存在显著差异,TCF7和TCF7L2在HepG2中的覆盖度持续较低。
Factors that influence the accuracy of inferences of TF activation status
关键因素评估表明:1) TFBS数量:TFBS数量越多(10,000 > 5,000 > 1,000),cfDNA与ATAC-seq推断结果间的相关性越强。2) 测序深度:对于BS10k和BS5k集合,相关性在约1x深度时趋于稳定;而对于BS1k集合,在HepG2中需要至少2x深度,在HuH7中甚至在5x时仍在提升。3) 肿瘤分数:肿瘤分数显著影响推断准确性。模拟不同肿瘤分数的数据发现,相关性随肿瘤分数增加而急剧增强。在模拟临床常见低肿瘤分数(如3%)的场景下,至少需要5x的测序深度才能准确检测到“HepG2_HIGH”和“HuH7_HIGH”TF亚组间的显著活性差异;若深度仅为1x,则在3%肿瘤分数下无法检测到显著差异。
Possible reasons for inconsistent inferences of TF activity between the ATAC-seq and cfDNA-WGS data
尽管在5x深度下准确性较高,但仍存在部分TF(如BHLHE40, CEBPG, TP53, ZNF384)的活性在两种数据集中推断不一致。进一步分析发现,其中三个TF(BHLHE40, CEBPG, ZNF384)的 motif 具有GC偏好性,其TFBS的GC含量分布与一致TF不同,这可能是导致不一致的原因。对于TP53,其cfDNA覆盖谱在HepG2的TFBS中心显示特有的覆盖度升高(可能源于TF结合对DNA的保护),而这种模式在ATAC-seq数据中未观察到。此外,分析发现用于cfDNA分析的TP53 BS10k集合与基于HOMER motif的ATAC-seq峰值区域重叠度很低,表明目标TFBS区域的选择也会影响信号强度和推断结果。
本研究得出结论,血浆cfDNA能够准确反映两种人肝癌小鼠异种移植模型中超过370种TF的激活状态,其推断结果与肿瘤ATAC-seq数据高度一致。这支持了利用cfDNA无创推断肿瘤特异性TF活性的巨大潜力。研究进一步明确了应用该方法的关键技术参数:需要足够数量的TFBS( preferably >10,000)、至少5x的测序深度以及至少3%的肿瘤分数,以确保在接近临床真实场景下的准确性。同时,研究也指出,TFBS motif的GC偏好性、目标基因组区域的选择等因素可能导致推断出现偏差,未来需要开发更先进的偏差校正方法和TFBS选择策略以优化分析流程。总体而言,这项研究为利用低侵入性液体活检技术深入探索肿瘤基因调控网络奠定了坚实的方法学基础,对癌症的生物学机制研究、生物标志物发现和精准治疗策略制定具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号