《Medicine》:Construction and validation of a prognostic model based on anoikis-fatty acid metabolism-related genes in colorectal cancer: A retrospective cohort study
编辑推荐:
本刊推荐:本研究创新性地整合失巢凋亡(Anoikis)与脂肪酸代谢(FA metabolism)两大关键生物学过程,通过生物信息学分析筛选出5个核心基因(BRCA1, CD36, ENO3, INHBB, PHLDA2),构建并验证了一个高效的结直肠癌(CRC)预后预测模型。该模型在外部验证集(GSE12945)中展现出卓越的预测性能(1、3、5年OS的AUC分别达0.889/0.795/0.740),其联合临床病理因素构建的列线图(Nomogram)进一步提升了预后评估的准确性。研究还揭示了高风险患者具有更高的免疫检查点(PDCD1/CTLA4)表达和CD8+T细胞浸润特征,为CRC的个体化治疗(如免疫治疗)提供了新的分子分型依据和潜在靶点。
引言
结直肠癌(Colorectal Cancer, CRC)是全球第三大常见恶性肿瘤和第二大癌症相关死亡原因。肥胖、缺乏运动和吸烟等可改变的危险因素显著增加了CRC的易感性。目前CRC的治疗策略,包括手术切除、化疗、靶向治疗、放疗和免疫治疗,在相当大比例的患者中未能产生最佳反应。因此,识别可靠的生物标志物和新的治疗靶点对于改善CRC管理至关重要。
恶性转化的细胞依赖于代谢重编程在恶劣的肿瘤微环境(Tumor Microenvironment, TME)中生存和转移。失巢凋亡(Anoikis)是一种由脱离细胞外基质触发的程序性细胞死亡形式,是癌细胞转移的关键屏障。为了播散到远处,癌细胞必须克服失巢凋亡;这一过程的失调从而驱动肿瘤进展,获得性失巢凋亡抵抗已成为癌细胞生存和转移的关键介质。值得注意的是,调节失巢凋亡的分子在CRC的发生和进展中起着关键作用,强调了它们作为治疗靶点的潜力。
脂肪酸(Fatty Acid, FA)代谢重编程通过提供能量、促进细胞膜生物合成以及调节驱动增殖、生存和转移的信号通路来支持癌细胞的生存和进展,所有这些都使其能够适应TME。FA代谢通过调节基本的细胞过程,包括细胞增殖、凋亡和转移,进一步影响CRC的发展和进展。重要的是,脂质代谢的改变已被确定为导致多种癌症类型中失巢凋亡抵抗的关键潜在机制。当前CRC的研究前沿在于阐明FA代谢与失巢凋亡抵抗之间联系的精确分子机制,以及识别FA代谢中介导这种抵抗的特定酶或通路。
尽管有这些进展,仍需要更多的研究来验证这些发现并将其转化为临床实践。此外,FA代谢不同组成部分与失巢凋亡抵抗之间复杂的相互作用在CRC中仍未完全阐明。值得注意的是,现有的CRC预后模型主要侧重于单一的生物学过程,如免疫浸润、个体代谢通路或失巢凋亡调节,即使是经过外部验证的模型在预测结局方面也表现平平。这与更广泛的肿瘤学观察结果一致:通过捕捉相互关联的癌症驱动网络,多通路整合模型比单通路模型表现出更强大的预测能力。关键的是,失巢凋亡和FA代谢之间的相互作用很少被整合到以前的CRC预后模型中。为了解决这一空白,本研究利用来自癌症基因组图谱(The Cancer Genome Atlas, TCGA)和基因表达综合数据库(Gene Expression Omnibus, GEO)的CRC患者的转录组和临床数据,构建了一个基于失巢凋亡和FA代谢相关基因(Anoikis-Fatty Acid Metabolism-Related Genes, AFRGs)的预后模型。
材料与方法
数据收集:从TCGA收集了结肠腺癌(COAD)和直肠腺癌(READ)患者的转录组数据、临床信息和突变数据。从GEO数据库(GSE12945)收集了62名CRC患者的转录组数据和相应的临床信息。
AFRGs表达提取:通过整合GeneCards和Harmonizome数据库中与“anoikis”相关的基因,以及从京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)数据库中提取的FA代谢相关基因(FAMRGs),获得了AFRGs列表。从TCGA获得的CRC表达数据文件中提取AFRGs的表达水平。
差异表达分析:使用R语言的Limma包进行差异表达分析,筛选标准为|Log2FC| > 1且错误发现率(False Discovery Rate, FDR)< 0.05。
基于AFRGs的非负矩阵分解(Nonnegative Matrix Factorization, NMF)分子分型:对TCGA CRC数据集和GSE12945数据集进行基因交集分析并确定其表达水平。应用单变量Cox分析识别具有预后意义的潜在AFRGs。使用“NMF”R包对基因进行NMF聚类分析。使用“survival”和“survminer”R包对鉴定出的聚类进行总生存期(Overall Survival, OS)和无进展生存期(Progression-Free Survival, PFS)分析。
预后风险评分模型构建:进行单变量Cox回归分析和LASSO惩罚回归分析,以开发预后TME风险评分特征作为独立的预后风险因素。将来自TCGA的CRC数据集和GSE12945的表达数据使用R包caret进行分区(1000次),70%的数据分配给训练集,剩余的30%分配给测试集。使用以下公式计算每位患者的风险评分:风险评分 = 系数1 × 基因1表达水平 + ... + 系数N × 基因N表达水平。随后,根据风险评分的中位数将患者分为高风险组和低风险组。
预后特征的评估与分析:使用受试者工作特征(Receiver Operating Characteristic, ROC)曲线评估特征的预后价值,并使用pROC包分析1年、3年和5年的ROC曲线,计算曲线下面积(Area Under the Curve, AUC)值和置信区间。进行单变量和多变量Cox分析,比较风险评分与其他临床病理因素在预测训练集预后方面的关系。
临床预后模型的构建与验证:对TCGA和GEO(GSE12945)数据集进行单变量和多变量分析,以评估风险评分是否是影响CRC患者生存的独立风险因素。进行决策曲线分析(Decision Curve Analysis, DCA)以确定风险评分模型的临床应用价值。使用“regplot”包构建一个整合性别、年龄、分期和风险特征的列线图(Nomogram)用于生存预测。绘制校准曲线以评估列线图的预测准确性。
统计分析:使用R软件(版本4.3.2)进行统计分析。采用Kaplan-Meier曲线分析和对数秩检验分析两组间不同的生存率。P值通过双侧统计检验确定,所有统计学显著结果需满足P < .05。
结果
差异表达的失巢凋亡和脂肪酸代谢相关基因的鉴定:通过差异分析,共筛选出232个差异表达的AFRGs,包括151个上调基因和81个下调基因。热图和火山图展示了前50个最显著上调和下调的基因。
基于AFRGs的分子分型:通过单变量Cox分析(P < .01)确定了8个与CRC预后相关的AFRGs。基于这8个预后相关的AFRGs,使用NMF将620个CRC样本分为两个聚类(C1和C2)。生存分析显示,C1亚型预后较好,而C2亚型预后较差。
不同CRC组中TME的分析:使用ESTIMATE算法计算免疫评分、基质评分、估计评分和肿瘤纯度。结果显示,聚类2的基质评分和估计评分显著高于聚类1,而聚类2的肿瘤纯度显著低于聚类1,免疫评分在两个聚类间无显著差异。除了细胞毒性淋巴细胞、中性粒细胞和T细胞外,其他8种免疫相关细胞和2种基质细胞的绝对丰度在两个聚类中表现出显著变化。
基于AFRGs的预后模型的构建与验证:通过Cox回归和LASSO回归分析,最终构建了一个包含5个基因(BRCA1, CD36, ENO3, INHBB, PHLDA2)的多变量预后模型。Kaplan-Meier分析显示,高风险组患者的OS显著差于低风险组。在TCGA训练队列中,1年、3年和5年OS的AUC值分别为0.698、0.678和0.697;在TCGA测试队列中分别为0.638、0.658和0.568;在GSE12945队列中分别为0.889、0.795和0.740。风险曲线分析表明,高风险组死亡率更高,生存时间更短。临床统计分析的卡方检验P值均大于0.05,表明样本分组在临床特征上没有偏差。
不同临床组间风险评分的差异分析:风险评分在女性中高于男性。在分期中,风险评分随分期进展而增加,I期与IV期、II期与IV期之间存在统计学显著差异。在T分期中,T1、T2、T3分别与T4相比有显著差异,T4风险评分最高。在M分期中,M0的风险评分高于M1,差异有统计学意义。在N分期中,N0与N1、N0与N2之间存在显著差异,N2风险评分最高。年龄≥65岁与<65岁之间的风险评分无统计学显著差异。
基于AFRGs的CRC生存列线图:单变量和多变量Cox回归分析显示,AFRGs是预测生存的独立因素。随后构建了一个整合AFRGs与其他临床病理特征的临床适用列线图,用于预测CRC的1年、3年和5年生存率。校准图显示预测概率与实际观察概率之间具有极好的一致性。DCA显示,与单独的临床病理特征相比,列线图(包含AFRG风险评分和临床病理因素)在1年、3年和5年为TCGA队列的CRC患者提供了更高的临床净获益。ROC曲线分析进一步验证了列线图的预测准确性:与年龄、性别、风险评分、分期和分级等单个因素相比,列线图在1年(AUC = 0.788)、3年(AUC = 0.807)和5年(AUC = 0.833)的预后预测中表现出更高的准确性。
基于AFRGs模型的CRC高/低风险组免疫浸润分析:12个免疫检查点相关基因(PDCD1, CD274, CTLA4, POLE2, FEN1, MCM6, POLD3, MSH6, MSH2, FAP, TAGLN, LOXL2)与风险评分的相关性分析显示,POLE2、FEN1、MCM6、POLD3、MSH6和MSH2与风险评分负相关,而PDCD1、CTLA4、FAP、TAGLN和LOXL2与风险评分正相关,所有相关性均具有统计学意义。高低风险组间这12个基因的表达差异比较显示,低风险组中FEN1、MCM6、MSH2、MSH6、POLD3和POLE2表达更高,而高风险组中CTLA4、FAP、LOXL2、PDCD1和TAGLN表达更高,CD274表达无显著差异。8种免疫细胞(T细胞、CD8+T细胞、细胞毒性淋巴细胞、B系细胞、NK细胞、单核系细胞、髓样树突状细胞、中性粒细胞)和2种基质细胞(内皮细胞、成纤维细胞)与风险评分的相关性分析显示,风险评分与T细胞、CD8+T细胞、细胞毒性淋巴细胞、单核系细胞、内皮细胞和成纤维细胞呈显著正相关。高低风险组间比较显示,高风险组中CD8+T细胞、内皮细胞、成纤维细胞、单核系细胞、中性粒细胞和T细胞的浸润水平显著更高,而细胞毒性淋巴细胞、B系细胞、髓样树突状细胞和NK细胞的浸润水平无显著差异。
AFRGs模型基因在CRC正常组和肿瘤组中的表达:基于TCGA数据库,对选定的5个AFRGs进行表达分析,观察CRC正常组和肿瘤组之间的表达差异。结果显示,5个AFRGs基因在CRC正常组和肿瘤组之间的表达存在统计学显著差异。其中,仅CD36在正常组的表达高于肿瘤组,而BRCA1、ENO3、INHBB和PHLDA2在肿瘤组的表达均高于正常组。
讨论
CRC是一个全球性的重大健康问题。识别新的CRC预后生物标志物对于对具有不同预后的患者进行分层至关重要。目前CRC的临床治疗选择相当有限,探索与细胞死亡机制和代谢相关的新治疗途径已成为一个潜在方向。基于此,我们对AFRGs及其关联进行了深入分析,发现基于AFRGs分类的不同亚型在OS和PFS方面存在统计学显著差异。
这些关键的AFRGs(BRCA1, CD36, ENO3, INHBB, PHLDA2)涉及多种细胞过程和癌症相关通路,这可以解释它们在CRC中的预后价值。BRCA1以其在DNA修复和基因组稳定性中的作用而闻名,其失调可导致驱动CRC进展的基因组不稳定性;ENO3与能量代谢和肿瘤细胞存活相关,支持CRC细胞的高代谢需求;INHBB与细胞增殖和分化有关,可能调节CRC细胞的生长动力学;PHLDA2参与凋亡调节和肿瘤抑制,其下调可能有助于CRC细胞逃避凋亡;CD36是一个特别值得关注的基因,它不仅与失巢凋亡相关,而且在FA代谢中起着关键作用。
我们基于这些核心AFRGs构建的预后风险评分,根据风险评分的中位数将患者分为高风险组和低风险组。结果显示,高风险组患者的OS低于低风险组,表明风险评分模型可能是一个可靠的预后指标。在考虑其他临床变量时,它也具有独立的预后价值。癌症中细胞死亡机制与代谢之间的关系是复杂的,理解失巢凋亡抵抗和FA代谢重编程如何协同促进CRC进展,可能有助于制定更有效的治疗策略,这就是为什么我们将AFRGs(连接这两个过程)整合到我们的预后模型中。
此外,高风险组和低风险组之间免疫检查点相关基因的表达和免疫细胞浸润存在差异,表明存在不同的免疫反应和TME。具有特定免疫和分子特征的CRC患者可能具有不同的预后和治疗反应。与已发表的CRC预测模型相比,我们的预后模型显示出卓越的预测效能。例如,具有较高PDCD1/CTLA4表达的高风险患者可能更可能从抗PD-1/CTLA4免疫治疗中获益,而具有较低免疫检查点水平和良好预后的低风险患者可以优先考虑手术切除或辅助化疗,这种分层与我们模型个体化治疗的目标一致。
我们的研究存在一定的局限性。主要数据来源来自包含回顾性数据的公共数据库,可能引入选择偏倚;此外,风险评分的最佳临界值需要在临床应用前进一步验证。而且,数据的异质性和公共数据库中潜在的混杂因素可能影响模型的可靠性。这些局限性凸显了需要进行更严格的验证以确认模型的临床效用。
结论
总之,本研究利用TCGA和GEO(GSE12945)数据集构建并验证了一个基于失巢凋亡-FA代谢相关基因(AFRGs)的结直肠癌(CRC)预后模型:通过单变量Cox和LASSO回归,确定了5个关键AFRGs(BRCA1, CD36, ENO3, INHBB, PHLDA2)来开发风险模型,该模型有效地将患者分为高/低风险组(在GSE12945中具有优异的外部验证效能,1年、3年、5年OS的AUC:0.889/0.795/0.740),并构建了一个整合的列线图(风险评分 + 年龄/性别/TNM分期),进一步提高了预后准确性(1年、3年、5年OS的AUC:0.788/0.807/0.833),同时免疫分析揭示高风险患者具有升高的PDCD1/CTLA4表达和CD8+T细胞浸润特征,以支持风险分层的个体化治疗(例如,对高风险患者进行免疫治疗,对低风险患者进行手术切除)。然而,应注意包括回顾性数据来源和小型GSE12945队列(n = 62)在内的局限性,需要通过前瞻性多中心研究和临床样本的实验验证进行进一步验证。总体而言,本研究为CRC提供了一个可靠的基于AFRGs的预后工具,并为探索靶向失巢凋亡和FA代谢之间相互作用的个体化治疗策略提供了方向。