基于开放染色质引导的可解释机器学习揭示cfDNA中癌症特异性染色质特征
《Communications Biology》:Open chromatin-guided interpretable machine learning reveals cancer-specific chromatin features in cell-free DNA
【字体:
大
中
小
】
时间:2025年11月13日
来源:Communications Biology 5.1
编辑推荐:
本刊推荐:为解决利用细胞游离DNA(cfDNA)进行癌症早期检测时肿瘤源性信号微弱、表观遗传模式复杂多变的技术难题,研究人员开展了针对乳腺癌和胰腺癌cfDNA核小体在开放染色质区域富集模式的研究。他们发现cfDNA在癌细胞和CD4+ T细胞特异性开放染色质区域呈现差异性富集,并应用XGBoost机器学习模型,显著提高了癌症检测准确性(AUC达96%),为cfDNA液体活检提供了新的生物标志物和可解释的分析框架。
在癌症精准医疗时代,早期诊断是降低死亡率的关键。液体活检作为一种非侵入性诊断方法,通过分析血液中的细胞游离DNA(cfDNA)来检测癌症特异性标志物,已成为当前研究热点。健康个体的cfDNA主要来源于免疫细胞,而癌症患者的cfDNA则同时来源于免疫细胞和肿瘤细胞(即ctDNA)。除了基因突变外,cfDNA还保留了DNA甲基化和核小体定位等表观遗传特征,这为癌症检测提供了新的维度。
然而,准确区分癌症源性cfDNA与背景cfDNA仍面临巨大挑战。这主要是由于表观遗传模式的复杂性和变异性,以及肿瘤源性cfDNA通常含量极低(尤其在早期癌症中)。虽然机器学习方法在cfDNA预测分析中显示出潜力,但其在预测准确性、普适性、数据可解释性等方面仍存在诸多挑战。
在这项发表于《Communications Biology》的研究中,研究人员收集了乳腺癌和胰腺癌患者的cfDNA,发现这些DNA片段在开放染色质区域呈现显著富集。差异富集不仅出现在癌细胞特异性ATAC-seq(转座酶可及染色质的高通量测序)峰区,也出现在CD4+ T细胞特异性峰区,表明cfDNA信号同时反映了肿瘤和免疫微环境的贡献。
为了验证这些模式,研究团队应用了可解释的机器学习模型(XGBoost),该模型在细胞类型特异性开放染色质区域上进行训练。这种方法不仅提高了癌症检测的准确性,还突出了与疾病状态相关的关键基因组位点。
研究采用的主要技术方法包括:从乳腺癌(T47D和KPL-1)细胞系培养上清和乳腺癌、胰腺癌患者血浆样本(分别来自Sanford Health Hospital Biobank和Chiba University Hospital)中分离cfDNA;使用NEXTFLEX rapid DNA-seq 2.0试剂盒进行文库制备,在Illumina平台进行全基因组测序;通过Bowtie比对至hg19参考基因组,使用ATAC-seq数据(T47D细胞系和CD4+ T细胞)作为开放染色质参考;运用EdgeR进行差异富集分析,XGBoost进行机器学习建模和特征重要性分析。
研究人员首先从luminal乳腺癌细胞系(T47D和KPL-1)收集体外cfDNA,这些DNA片段显示出清晰的核小体片段模式。在T47D细胞的ATAC-seq峰区,体外cfDNA在峰中心两侧显示出典型的定位良好的核小体富集模式。来自乳腺癌患者和健康供体的血浆cfDNA同样保留了典型的染色质DNA片段化模式,具有单核小体、双核小体和三核小体对应的DNA片段。基因组浏览器轨迹显示,患者来源的核小体片段(cfNuc)在基因启动子和T47D ATAC-seq检测到的开放染色质区域频繁富集。
在乳腺癌患者中检测到乳腺癌特异性开放染色质的独特cfDNA信号
尽管乳腺癌和健康供体cfNuc数据的平均信号强度没有显著差异,但在T47D ATAC-seq峰区发现了差异富集。基因组浏览器轨迹显示,与健康供体相比,乳腺癌样本在多个基因(包括FADD和CDK9)中观察到显著差异。此外,与乳腺发育相关的基因(如FOXA1、TBX基因和WNT基因)显示出显著升高的cfNuc信号,表明乳腺癌样本中存在细胞类型特异性的cfNuc富集。差异峰分析共识别出776个富集增加和871个富集减少的峰。通路富集分析证实,与luminal乳腺癌相关的通路(如乳腺癌、雌激素信号和内分泌抵抗)以及cfDNA生物学相关通路(如凋亡和细胞衰老)与差异富集的cfNuc区域显著相关。
差异富集的cfDNA与癌症和免疫细胞功能相关的生物学通路相关
考虑到大多数cfDNA已知来源于免疫细胞,研究人员试图鉴定与免疫细胞开放染色质区域相关的差异富集位点。使用CD4+ T细胞ATAC-seq峰作为参考,差异分析显示567个峰信号增加,649个峰信号减少。通路分析检测到T细胞相关通路,而乳腺癌、Wnt信号和细胞衰老等通路在T47D和CD4+ T细胞ATAC-seq峰分析中共同发现。合并T47D和CD4+ T细胞的差异富集区域创建了一个包含2804个基因座的峰值集,能够清楚区分健康个体和乳腺癌患者的样本。
+ T细胞和乳腺癌ATAC-seq峰进行cfNuc富集的整合分析'>
为了评估在乳腺癌患者中鉴定的差异富集cfNuc区域是否对乳腺癌特异或在不同癌症类型间共享,研究人员使用胰腺癌患者的cfNuc进行了类似分析。胰腺癌样本中的cfNuc占据模式显示出与乳腺癌患者和健康供体不同的富集模式,表明存在癌症类型特异性的染色质特征。差异富集分析显示,与健康对照相比,胰腺癌cfNuc中有176个增加和141个减少的区域。尽管差异富集区域数量相对较少,但它们足以区分胰腺癌患者和健康供体的cfNuc谱。
ATAC-seq引导的机器学习分析增强了对癌症cfDNA的预测
为了评估cfDNA测序数据的发现,研究人员从公共cfDNA数据库(FinaleDB)收集了64例乳腺癌患者和57例健康供体的cfDNA数据。考虑到人类cfDNA样本的巨大变异性,他们选择了机器学习分析。当使用2804个乳腺癌cfNuc差异峰进行XGBoost预测分析时,达到了相对较高的预测准确率(85.29%,AUC 92%)。当训练数据局限于开放染色质区域,特别是结合使用T47D和CD4+ T细胞的ATAC-seq峰时,检测到更高的总体预测准确率。
可解释的机器学习模型识别出乳腺癌检测的新型生物标志物
XGBoost模型的独特特征使研究人员能够轻松识别检测患者特异性片段富集模式的关键染色质区域。从使用2804个乳腺癌cfNuc差异富集区域的预测分析中,从训练模型中提取了52个顶级特征,这些区域足以区分乳腺癌和健康供体样本的cfNuc模式。训练模型识别的重要特征包括与已知影响肿瘤发展的基因相关的染色体区域。其中,EMP3作为顶级特征相关基因被发现,但其在肿瘤生物学中的作用报道甚少。乳腺癌病例的Kaplan-Meier患者生存分析显示,EMP3表达水平与患者生存率呈正相关。
本研究利用ATAC-seq确定的开放染色质信息,解析了luminal乳腺癌和胰腺癌患者血浆中保存的染色质特征。T47D luminal乳腺癌细胞系中实验确定的ATAC-seq峰有助于识别乳腺癌和胰腺癌患者cfDNA数据集中的差异富集区域。此外,在乳腺癌和胰腺癌cfDNA数据集中观察到来源于T细胞的ATAC-seq峰的差异信号,表明患者血液中免疫细胞来源的细胞游离核小体发生改变和/或免疫细胞与癌细胞来源的DNA片段比例发生变化。
研究表明,将细胞类型特异性开放染色质区域与可解释的机器学习相结合,可以揭示cfDNA中保存的癌症特异性染色质特征。这种方法不仅提高了癌症检测的准确性,还为理解肿瘤微环境的贡献提供了新的视角。未来研究可以探索cfDNA在免疫特异性开放染色质区域的动态变化是否能够预测免疫治疗疗效或免疫相关不良事件。
尽管这项研究仅关注核小体片段富集,但整合额外的表观遗传和遗传信息(如转录因子足迹、DNA甲基化、组蛋白修饰和体细胞突变)以及患者人口统计学和临床信息,可能会进一步提高预测能力。研究人员建立的流程相对简单,有助于为转化研究(如基于cfDNA的诊断工具)创建基因(或染色质)panel。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号