基于孟德尔随机化与生物信息学分析揭示FANCD2、CD33与TFPI在肺腺癌预后中的关键作用及预测模型构建
《Hormones & Cancer》:Association of FANCD2, TFPI, and CD33 genes with prognosis of lung adenocarcinoma: a bioinformatics study
【字体:
大
中
小
】
时间:2025年10月08日
来源:Hormones & Cancer
编辑推荐:
为解决肺腺癌(LUAD)早期诊断困难及预后预测生物标志物缺乏的问题,本研究通过整合孟德尔随机化(MR)与生物信息学分析,筛选出FANCD2、CD33和TFPI三个关键基因,并构建了预后预测模型。该模型在验证集中表现出良好的预测准确性,为LUAD的个体化治疗决策提供了新的理论依据。
肺腺癌(LUAD)作为非小细胞肺癌中最常见的亚型,其高死亡率与复杂的发病机制一直是临床面临的严峻挑战。尽管靶向治疗和免疫治疗取得了显著进展,但由于早期诊断困难以及现有治疗策略的局限性,患者的总体生存率仍然不理想。传统的生物医学研究方法容易受到混杂因素的干扰,难以建立清晰的因果关系。因此,寻找有效的生物标志物,并构建精准的预后预测模型,对于改善LUAD患者的临床管理至关重要。
为了回答这些问题,研究人员开展了一项整合孟德尔随机化(MR)与生物信息学的综合性研究。他们首先从GWAS和TCGA数据库中获取了LUAD患者和健康对照的基因表达数据及临床信息。通过MR分析,他们识别出与LUAD发生发展相关的基因。随后,结合差异表达基因(DEGs)分析,筛选出关键的差异表达LUAD相关基因(DELRGs)。利用LASSO回归和Cox回归分析,研究人员进一步确定了与预后最相关的核心基因,并基于这些基因构建了风险预测模型。最后,通过Kaplan-Meier生存曲线和校准曲线,验证了该模型在预测患者1年、3年和5年生存率方面的准确性。
本研究主要整合了多组学数据分析技术。数据来源包括GEO数据库的基因芯片数据集(GSE43458、GSE75037、GSE85841、GSE140797)和TCGA数据库的肺腺癌转录组数据。核心分析方法包括:1)孟德尔随机化(MR)分析,利用eQTL数据集作为暴露数据,以逆方差加权(IVW)为主要方法评估基因与LUAD的因果关系;2)差异表达基因(DEGs)筛选,标准为|log2FC|>1且P<0.05;3)功能富集分析,包括GO和KEGG通路分析;4)免疫细胞浸润分析,使用CIBERSORT算法评估22种免疫细胞的比例;5)预后模型构建,采用LASSO回归和Cox回归筛选独立预后基因,并构建列线图(Nomogram)预测生存率。
研究人员首先对来自GEO数据库的多个基因芯片数据集进行了批次效应校正。主成分分析(PCA)结果显示,校正前各实验组数据存在明显分离,表明存在显著的批次效应;而校正后,数据呈现出随机分布,证实批次效应已被有效消除。随后,研究人员在合并后的训练集数据中鉴定出2781个差异表达基因(DEGs),其中1227个基因表达上调,1554个基因表达下调。
为了从因果关系的角度识别LUAD的关键基因,研究人员进行了两样本孟德尔随机化(MR)分析。通过将MR分析识别出的LUAD相关基因与差异表达基因(DEGs)进行交集分析,最终确定了16个差异表达LUAD相关基因(DELRGs)。其中,FANCD2、DNTTIP1、OTX1和WFDC3在肿瘤组织中表达上调,而其余基因(如CD33、TFPI等)则表达下调。MR分析结果显示,这16个基因均与LUAD的发生风险存在显著关联(P<0.05)。异质性检验和水平多效性检验结果均表明,研究结果具有较高的稳定性和可靠性。
为了探究这16个关键基因在LUAD中的潜在功能,研究人员进行了GO和KEGG通路富集分析。GO分析结果显示,这些基因主要富集于神经系统发育、血小板功能以及丝氨酸型内肽酶抑制剂活性等生物学过程。KEGG通路分析则表明,这些基因主要参与内分泌及其他因子调节的钙重吸收、范可尼贫血(Fanconi anemia)通路以及谷胱甘肽代谢等通路。此外,通过CIBERSORT算法进行的免疫细胞浸润分析发现,LUAD组织与正常组织在自然杀伤(NK)细胞的表达水平上存在显著差异,提示NK细胞在LUAD的免疫微环境中扮演着重要角色。
为了构建一个能够预测LUAD患者预后的模型,研究人员首先利用LASSO回归算法对16个DELRGs进行筛选,以消除基因间的多重共线性,最终保留了11个代表性基因。随后,通过单因素和多因素Cox回归分析,进一步确定了三个与LUAD患者预后生存最密切相关的独立基因:CD33、FANCD2和TFPI。基于这三个基因的表达水平,研究人员计算了每位患者的风险评分,并根据中位风险评分将患者分为高风险组和低风险组。Kaplan-Meier生存分析结果显示,FANCD2和TFPI低表达组的患者总生存率(OS)更高,而CD33高表达组的患者总生存率更高。为了直观地预测患者的生存概率,研究人员构建了一个列线图(Nomogram),该模型能够预测患者1年、3年和5年的生存率。校准曲线显示,该模型的预测值与实际观测值高度一致,证明了其良好的预测准确性。
本研究通过整合孟德尔随机化(MR)与生物信息学分析,成功识别出FANCD2、CD33和TFPI三个与肺腺癌(LUAD)预后密切相关的关键基因,并构建了一个具有良好预测性能的预后模型。该模型为LUAD的个体化治疗决策提供了新的理论依据。
在讨论部分,研究人员对这三个关键基因的生物学功能进行了深入探讨。FANCD2是范可尼贫血(Fanconi anemia)通路的核心蛋白,在DNA修复中起着至关重要的作用。其异常表达可能导致基因组不稳定,从而促进癌症的发生发展。在LUAD中,FANCD2的表达上调与患者的不良预后和免疫治疗反应相关,并且与NK细胞浸润密切相关,被认为是铁死亡与免疫治疗协同作用的关键靶点。CD33是一种在髓系来源的抑制性细胞(MDSCs)中表达的分子,在免疫抑制功能中扮演着重要角色。在LUAD中,CD33的表达下调与患者的不良预后相关,其机制可能与抑制T细胞增殖和影响调节性T细胞的发育有关。TFPI(组织因子途径抑制剂-1)在LUAD中的作用则较为复杂。MR分析显示,TFPI表达水平升高与LUAD发病风险降低相关,提示其在肿瘤发生早期可能具有保护作用。然而,预后分析却显示,TFPI在LUAD组织中的高表达与患者较差的预后相关。研究人员推测,这种看似矛盾的结果可能与TFPI在肿瘤发生和进展过程中扮演的双重角色有关,也可能反映了MR分析(反映早期病因)与预后分析(反映疾病进展中的适应性变化)之间的时间差异。
综上所述,本研究不仅为LUAD的早期诊断和预后评估提供了新的生物标志物,也为深入理解LUAD的发病机制提供了新的视角。然而,该研究也存在一些局限性,例如基于公共数据库的分析可能存在人群异质性,且缺乏直接的实验验证。未来的研究需要通过单细胞测序、功能实验以及多中心临床样本验证,进一步阐明这些基因在LUAD中的具体分子机制,并评估其临床转化价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号