基于单细胞RNA测序与机器学习的白血病预后模型构建及免疫微环境机制解析
《Hormones & Cancer》:Development and validation of a leukemia prognostic model through single-cell RNA sequencing and machine learning approaches
【字体:
大
中
小
】
时间:2025年10月11日
来源:Hormones & Cancer
编辑推荐:
本研究针对白血病患者预后差异大、缺乏精准预测工具的问题,通过整合TCGA和GEO数据库的RNA表达谱与临床数据,结合单细胞RNA测序和10种机器学习算法,开发出高性能预后模型(1-3年AUC达0.874-0.925),鉴定出TLR2、TLR4、CCR7、IL18等6个关键免疫调控基因,并通过RT-PCR验证其在白血病细胞系中的显著上调,为白血病免疫治疗提供新靶点。
白血病作为全球范围内最具挑战性的血液系统恶性肿瘤之一,其典型特征是骨髓中未成熟血细胞的异常增殖。尽管过去几十年治疗策略取得显著进展,但患者预后仍存在巨大差异,这凸显了临床决策和个性化治疗方案制定过程中对更精准预后工具的迫切需求。尤其令人困扰的是,传统临床参数往往难以准确预测个体患者对治疗的反应和长期生存结局,导致部分患者可能接受过度治疗,而另一些患者则因治疗不足面临复发风险。
在这种临床困境下,科学家们逐渐将目光投向肿瘤微环境——特别是免疫微环境在白血病发生发展中的关键作用。随着高通量测序技术的革命性突破,单细胞RNA测序(scRNA-seq)技术使得研究人员能够以前所未有的分辨率解析白血病微环境中的细胞异质性。与此同时,机器学习算法的进步为整合多维度数据、挖掘临床相关信息提供了强大工具。然而,如何将这两种前沿技术有机结合,开发出既具有高预测精度又具备明确生物学意义的预后模型,仍是白血病研究领域的重要挑战。
在这项发表于《Discover Oncology》的研究中,Chen等研究人员开展了一项创新性研究,旨在通过整合机器学习方法与单细胞转录组分析,构建可靠的白血病预后模型,并深入探索免疫微环境在疾病进展中的机制。研究不仅关注预后预测的准确性,更注重揭示模型背后的生物学基础,为未来免疫治疗策略的开发提供理论依据。
研究人员主要采用了几个关键技术方法:从TCGA和GEO数据库获取白血病患者的RNA表达谱和临床数据,以及GSE131184单细胞RNA测序数据集;通过差异表达分析(标准:logFC>1,FDR<0.05)筛选白血病相关基因;应用10种机器学习算法(包括Lasso、CoxBoost等)进行预后模型构建与验证;使用Seurat进行单细胞数据质控和细胞类型注释,CellChat算法分析细胞间通讯网络;并通过RT-PCR在U937和K562白血病细胞系中验证关键基因表达。
3.1 白血病基因表达谱与预后生物标志物的综合生物信息学分析
研究人员通过二维层次聚类热图展示了白血病样本中的差异基因表达模式,揭示了具有对比表达特征的不同分子亚型。火山图分析确定了满足统计学显著性(p<0.05)和生物学相关性(|log2 FC|>1)标准的差异表达基因(DEGs)。Venn图显示两个基因表达数据集之间存在1163个共同基因,约占5.7%的一致性。森林图呈现了候选预后基因的风险比(HR),识别出与患者生存结局显著相关的生物标志物。
多种机器学习算法的比较评估表明,集成学习方法(随机森林、梯度提升)和正则化回归(Lasso、岭回归)表现出优异的判别能力。基于预后模型划分的高危和低危患者组显示出显著生存差异(log-rank检验p<0.001)。时间依赖性ROC曲线在1年、2年和3年生存终点分别达到0.874、0.891和0.925的AUC值,表明模型具有优秀的时间判别性能。校准图显示预测与观察到的生存概率之间具有良好一致性(C-index=0.874)。多变量Cox回归证实该预后模型在调整已知临床因素后仍是独立的生存预测因子。
蛋白质-蛋白质相互作用(PPI)网络分析确定了TIRAP、TLR2、TLR4、CCR7和FOXP3等免疫相关基因中的核心枢纽基因。染色体分布图可视化了已识别免疫相关基因的基因组定位。小提琴图显示六个关键免疫调节因子(IL18、TIRAP、TLR2、TLR4、FOXP3、CCR7)在正常和肿瘤组织之间的表达分布,大多数基因在恶性组织中上调。IL18表现出最高的判别性能(AUC=0.983),凸显其作为独立生物标志物的潜力。
相关性热图按免疫细胞亚型对基因进行分层聚类,揭示了细胞特异性表达模式。计算反卷积算法估计的免疫细胞分数比较显示,高危组和低危组患者之间T细胞亚群、巨噬细胞群体和树突状细胞存在显著差异。T细胞受体(TCR)多样性指标显示预后组间存在高度显著差异(p<0.001),表明T细胞克隆性和免疫识别能力不同。基质评分(基质细胞浸润)、免疫评分(免疫细胞浸润)和ESTIMATE评分(综合纯度估计)均显示风险组间存在显著差异,表明肿瘤微环境组成发生系统性改变。
UMAP降维图揭示了肿瘤微环境内不同的细胞群体,无监督聚类基于转录特征识别了多种细胞类型。特征图绘制了六个免疫调节基因(CCR7、FOXP3、IL-18、TIRAP、TLR2、TLR4)在UMAP嵌入上的表达强度,颜色梯度从紫色(低表达)到红/橙色(高表达)揭示了细胞类型特异性表达模式和潜在功能特化。点图矩阵显示已识别细胞群体间的基因表达模式,点强度和大小分别编码表达水平和表达细胞百分比。
网络图展示了不同实验条件下的基因关联模式,红蓝色热图叠加表达水平,红色表示高表达,蓝色表示低表达,揭示了条件特异性调控网络。表达热图比较了多个基因在样本队列中的表达,颜色强度反映相对于对照条件的log2倍数变化。TLR2、TLR4和CCR7在六种免疫细胞类型(B细胞、CD8+T细胞、CD4+T细胞、巨噬细胞、中性粒细胞和树突状细胞)中的表达量化显示细胞类型特异性模式:TLR2在树突状细胞中表达最高,TLR4主要在中性粒细胞和树突状细胞中表达,而CCR7在CD4+T细胞和树突状细胞中显著上调。
实验重复间一致的基因表达模式验证了观察到的调控网络的稳健性。CCR7、TLR4和TLR2的基因组拷贝数改变与免疫反应间关系的热图显示相关系数,颜色梯度从蓝色(负相关)到红色(正相关),揭示了基因组改变如何影响免疫表型。
水平条形图量化了CCR7、TLR4和TLR2在免疫细胞群体中的表达水平,表达值经标准化和缩放。综合相关性分析采用颜色强度和点大小表示样本队列中免疫通路与基因间的相关强度和方向。棒棒糖图评估了TLR2、TLR4和CCR7表达在各种肿瘤微环境中的相关性,定量相关性分数表示每个受体在特定微环境背景中的相对重要性。
系统级视图揭示了肿瘤微环境内免疫细胞间的相互作用网络拓扑,显示B细胞、T细胞亚群、NK细胞、巨噬细胞、树突状细胞和浆细胞间的通讯通路,边缘粗细代表相互作用强度。详细圆形网络图说明每种细胞类型如何通过特定信号通路与其他细胞通讯。信号通路活性热图显示跨细胞类型或实验条件的通路激活水平,层次聚类揭示通路共调控模式。源-靶分析说明细胞通讯,实心点代表信号发送细胞,空心圆代表信号接收细胞。和弦图说明不同实验条件下免疫细胞群体间的复杂双向通讯模式,带宽代表相互作用强度。
3.10 白血病细胞系中关键免疫标志物的RT-PCR验证
定量RT-PCR分析验证了U937和K562白血病细胞系中四个候选基因(TLR2、TLR4、CCR7、IL18)与正常PBMCs相比的表达:TLR2在U937细胞中显著上调(3.8倍,p<0.001),K562细胞中度但显著升高(2.2倍,p<0.01);TLR4在两种细胞系中表达均增加,U937(3.4倍,p<0.001)高于K562(1.8倍,p<0.05);CCR7在两种细胞系中均显著上调:U937(4.1倍,p<0.001)和K562(2.7倍,p<0.01),表明淋巴细胞迁移潜力增强;IL18在两种细胞系中持续升高,U937显示最高倍数变化(5.2倍,p<0.001),K562显著上调(3.6倍,p<0.001)。
研究的讨论部分深入阐述了这些发现的意义。白血病作为一种异质性血液恶性肿瘤,其治疗反应和疾病复发的变异性反映了白血病发生的复杂生物学机制,强调了改进患者分层方法和精准治疗选择协议的迫切需求。在骨髓生态位中,复杂的微环境网络通过直接细胞接触机制和旁分泌信号通路促进白血病原始细胞与不同免疫群体间的动态相互作用。这些免疫相互作用具有双重功能,可能促进或抑制白血病进展,从而决定疾病结局。
通过整合机器学习算法与免疫微环境特征的综合计算分析,该研究产生了几个对转化研究和临床实施具有实质意义的关键发现。批量RNA测序数据集与单细胞转录组谱的系统整合促进了恶性细胞与免疫系统组件之间复杂关系的前所未有的表征。机器学习衍生的预后框架展示了卓越的预测能力,在多个时间端点实现了较高的AUC值,具有优异的校准性能指标。集成学习方法(特别是CoxBoost和Lasso回归算法)增强的性能与先前记录它们在分析高维基因组数据集方面有效性的研究相一致。
该研究成功识别了六个关键免疫调节基因(TLR2、TLR4、CCR7、IL18、TIRAP和FOXP3),它们显示恶性组织与正常组织间的差异表达模式且具有显著的预后效用。IL18的卓越判别能力(AUC=0.983)值得特别关注,支持其作为独立生物标志物的潜在应用。这些遗传特征的识别与支持炎症反应和免疫失调在白血病发病机制中基本重要性的累积证据一致。
单细胞RNA测序分析揭示了白血病微环境内的显著细胞异质性,不同的细胞簇显示独特的转录特征。关键免疫调节基因的细胞类型特异性表达模式突出了白血病免疫反应的复杂性。例如,TLR2在树突状细胞群体中的优先表达和CCR7在CD4+T细胞中的表达表明在特定免疫区室内的特化功能。
该研究最引人注目的发现之一是对白血病微环境内细胞间通讯网络的全面表征。CellChat计算分析揭示了连接不同免疫细胞群体的复杂信号架构,特别强调涉及B淋巴细胞、T淋巴细胞、自然杀伤(NK)细胞和树突状细胞的相互作用。这些通讯网络可能在肿瘤微环境内协调免疫反应,并从根本上影响疾病进展轨迹。
综上所述,这项研究通过整合机器学习和免疫谱分析,在白血病异质性、预后生物标志物和潜在生物学机制方面提供了重要见解。确定的免疫特征和细胞通讯网络不仅增进了对白血病发病机制的理解,而且为开发更个性化的诊断和治疗方法奠定了基础。特别是鉴定出的关键免疫调节基因和信号通路为未来靶向治疗干预提供了有希望的候选靶点,而构建的高性能预后模型有望在临床实践中实现更精确的患者风险分层和治疗决策。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号