
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用单细胞染色质景观揭示泛癌种细胞起源:机器学习驱动的高分辨率预测与肿瘤发生新见解
【字体: 大 中 小 】 时间:2025年09月20日 来源:Nature Communications 15.7
编辑推荐:
本研究针对癌症细胞起源(COO)鉴定难题,整合3669例全基因组测序(WGS)样本和559个单细胞染色质可及性(scATAC-seq)图谱,开发机器学习框架SCOOP,成功预测37种癌症亚型的细胞起源,首次揭示小细胞肺癌(SCLC)主要源于基底细胞而非传统认知的神经内分泌细胞,并发现多种胃肠道癌症通过胃杯状细胞样化生状态演进,为肿瘤防治提供新视角。
癌症的发生是一个多步骤的复杂过程,由随时间累积的遗传和表观遗传改变驱动。理解癌症的细胞起源(Cell of Origin, COO),即导致恶性转化的细胞前体,不仅是肿瘤生物学的基础问题,更对癌症预防、早期检测和精准治疗具有重要意义。传统研究主要通过基因工程小鼠模型探索COO,但物种差异限制了其直接应用于人类癌症研究的可靠性。近年来,转录组、基因组和表观基因组分析技术的发展为追溯人类癌症起源提供了强大工具,尤其是机器学习方法已能利用大量正常和肿瘤组织的测序数据对癌症进行组织来源分类。然而,这些方法多依赖于转录组数据,而基因表达易受肿瘤微环境、去分化和致癌重编程等因素干扰,可能模糊癌症的真实细胞起源。
遗传数据为追溯人类癌症COO提供了更可靠的途径。体细胞突变景观主要由恶性转化前积累的乘客突变构成,且正常COO的表观基因组塑造了体细胞突变的基因组分布特征——突变倾向于累积在染色质闭合区域,这些区域不易被DNA修复机制触及。此前研究利用正常组织的表观遗传特征(如组蛋白修饰、染色质可及性、DNA复制时序)与全基因组测序(WGS)检测的突变景观间的关系,通过线性模型预测癌症COO,并证明染色质特征比基因表达数据更能预测突变分布。然而,这些研究基于缺乏分辨率的组织水平表观基因组数据,无法识别导致癌症的具体细胞群体。
单细胞测序技术的突破使得能够在细胞亚群水平解析染色质可及性。本研究团队开发了机器学习框架SCOOP(Single-cell Cell Of Origin Predictor),整合scATAC-seq数据和大量公开WGS数据,以单细胞分辨率预测37种癌症类型的COO。该方法不仅证实了多种癌症的已知解剖学和细胞起源,还意外发现大多数小细胞肺癌(SCLC)起源于基底细胞而非神经内分泌细胞,同时揭示了多种胃肠道癌症通过化生状态演进的共同细胞轨迹。
研究采用的主要技术方法包括:1) 收集处理3669例癌症WGS样本和559个正常细胞亚群的scATAC-seq数据;2) 使用1Mb窗口对SNV和scATAC-seq数据进行分箱处理;3) 采用XGBoost机器学习模型建立突变密度预测模型;4) 通过逆向特征选择迭代识别最信息丰富的细胞亚群;5) 利用独立数据集(CPTAC等)进行验证。
SCOOP提高COO预测的细胞分辨率和准确性
通过100次SCOOP运行,研究重现了先前组织水平对8种癌症的COO预测,但达到了更高的细胞分辨率。例如,多发性骨髓瘤(MM)被预测起源于骨髓B细胞,黑色素瘤起源于黑色素细胞,胶质母细胞瘤(GBM)和肝细胞癌(HCC)分别起源于少突胶质细胞/星形细胞和肝祖细胞样细胞。对于肺腺癌(LUAD)和肺鳞癌(LUSC),SCOOP精准定位到肺泡2型细胞(AT2)和基底细胞这两种已知的肿瘤起源细胞。
SCOOP发现大多数小细胞肺癌具有基底细胞起源
深入分析肺癌亚型发现,SCLC的COO被预测为基底细胞,这与普遍认为的神经内分泌细胞起源理论相悖。支持这一发现的证据包括:Rb1、Pten和Tp53在鼠基底细胞中的失活可导致SCLC;LUSC和SCLC患者的突变密度谱聚集在一起,提示两者共享基底细胞起源。值得注意的是,典型SCLC病例显示RB1和TP53突变高频率,而LUSC则常见NFE2L2、CDKN2A、TP53和PIK3CA突变。
对SCLC亚型的进一步分析揭示,缺乏RB1和TP53改变的罕见非典型SCLC(aSCLC)具有独特的突变密度谱,SCOOP预测其COO为肺神经内分泌细胞。这与aSCLC在组织发生上与肺类癌相似、患者生存期更长以及神经内分泌细胞较低增殖率的观察一致。对于ASCL1+神经内分泌(SCLC-A)和其他分子亚型(SCLC-N、SCLC-P、SCLC-Y),SCOOP仍预测基底细胞起源。
SCOOP实现细胞亚群水平的COO预测
在肠道和造血系统癌症中,SCOOP展示了细胞亚群分辨率的价值。微卫星稳定结直肠癌(MSS CRC)被预测起源于肠道上皮干细胞;慢性淋巴细胞白血病(CLL)起源于骨髓B细胞;急性髓系白血病(AML)与粒细胞-巨噬细胞祖细胞(GMP)等髓系祖细胞高度相关,支持AML发展需要髓系分化的假说。
不同组织学癌症的独特COO
研究分析了肾细胞癌三种亚型:透明细胞癌(ccRCC)、乳头状癌(pRCC)和嫌色细胞癌(chRCC)。SCOOP预测ccRCC和pRCC起源于近端小管祖细胞样细胞,chRCC起源于远端小管集合管A型闰细胞,与先前认识一致且个体患者突变谱显示ccRCC与pRCC相似度高。
对胰腺导管腺癌(PDAC)和胰腺神经内分泌肿瘤(PNET)的探索发现,PDAC突变谱与胃杯状细胞抗相关性最强,PNET与胰腺胰岛内分泌细胞抗相关性最强。SCOOP进一步预测PDAC的COO为胃杯状细胞,PNET为胰岛内分泌细胞,提示PDAC通过胃样化生状态演进。
对结直肠癌的研究支持MSS CRC起源于结肠隐窝干细胞,而微卫星不稳定(MSI)CRC起源于胃化生状态的观点。SCOOP特别指出息肉结肠杯状细胞是MSI CRC的COO。
多种胃肠道癌症通过化生中间状态发展
通过分析急慢性胰腺炎、胰腺损伤模型、PDAC发展模型和结肠镜样本的scRNA-seq数据,研究发现化生细胞更相似于胃杯状细胞而非胰腺腺泡细胞。在PDAC发展的时间进程实验中,观察到KrasG12D突变诱导后腺泡细胞身份丢失同时胃杯状细胞特征表达增加。在CRC中,癌前干细胞样细胞与正常结肠干细胞转录相似度高,化生细胞与正常结肠杯状细胞相似度高。
胆道癌、食管癌和胃腺癌也被预测起源于胃杯状细胞,与先前组织水平预测的胃黏膜起源一致且提示这些癌症也存在化生转化。对胃癌进展中肠化生样本的WGS数据分析显示,胃杯状细胞确实是肠化生突变谱最预测性的表观遗传特征。
胶质瘤可能起源于胎儿样多能祖细胞
对脑癌的研究发现,髓母细胞瘤(MB)、GBM、毛细胞星形细胞瘤(PA)和少突胶质细胞瘤(OG)均被预测起源于胎儿样细胞亚群。MB预测起源于胎儿小脑颗粒神经元;PA和OG起源于胎儿大脑皮层少突胶质细胞祖细胞(OPCs);GBM被更具体地预测为胎儿大脑皮层多能胶质祖细胞(mGPCs),与近期胎儿脑细胞图谱显示GBM恶性细胞与多能祖细胞胎儿群体高度转录相似的结果一致。
泛癌种COO预测
研究进一步分析了B细胞淋巴瘤、骨髓增殖性肿瘤(MPN)、乳腺腺癌、平滑肌肉瘤、甲状腺癌和子宫内膜癌的COO,预测结果与每种癌症的一种推定COO匹配。MPN最可能起源于造血干细胞(HSCs),但证据表明也可能起源于类似HSCs的定向造血祖细胞,SCOOP对MPN的前三个COO预测均为多能造血祖细胞。
研究还将其他癌症的COO预测分为三类:1) 匹配代理细胞类型(如宫颈癌和头颈鳞癌匹配食管上皮细胞);2) 缺少所有预期COO(如膀胱癌、前列腺癌、卵巢癌);3) 方差解释率低(<10%,如乳腺小叶癌)。通过与相关性分析方法比较,SCOOP在31种癌症类型中达到30/31的准确率,显著优于Spearman(26/31)和Pearson(13/31)相关方法。
结论与讨论
本研究通过整合机器学习、WGS和scATAC-seq数据,成功预测了37种人类癌症亚型的细胞起源,实现了细胞亚群、发育和再生 hierarchy水平的分辨率提升。研究不仅验证了多数癌症的已知COO,还通过数据驱动产生了新假设,挑战了SCLC起源于神经内分泌细胞的传统认知,为肿瘤预防和早期检测提供了新思路。
研究发现多种胃肠道癌症通过胃杯状细胞样化生状态演进,揭示了跨组织的化生转化共同机制,这对开发跨癌种的化生生物标志物和重新利用成功的预防策略具有重要意义。尽管SCOOP在分辨率、准确性和规模上均有显著提升,但仍存在一些局限性,如需要聚集WGS样本可能掩盖个体肿瘤的COO异质性,单细胞图谱的全面性不足可能遗漏相关细胞亚群,以及SCOOP识别的是其染色质可及性最能解释癌症累积体细胞突变景观的癌前细胞祖先,而非必然是最初发生致癌打击的正常细胞。
随着WGS和scATAC-seq数据质量和数量的不断提升,SCOOP框架可进一步应用于罕见癌症、更精细的组织学和分子亚型分析,扩展对人类身体各部位的scATAC-seq采样将增强该方法识别癌症COO解剖学位置的能力。这项易于使用的计算平台为所有癌症生物学家提供了仅需癌症WGS数据和相应正常组织scATAC-seq数据即可分析COO的有效工具。
生物通微信公众号
知名企业招聘