整合机器学习分析程序性细胞死亡通路揭示心房颤动新型诊断生物标志物

《Journal of Inflammation Research》:Integrative Machine Learning Analysis of Programmed Cell Death Pathways Identifies Novel Diagnostic Biomarkers for Atrial Fibrillation

【字体: 时间:2026年01月05日 来源:Journal of Inflammation Research 4.1

编辑推荐:

  本研究通过整合GEO数据库转录组数据,结合加权基因共表达网络分析(WGCNA)、共识聚类及12种算法(66种模型组合)的机器学习流程,系统绘制了心房颤动(AF)中程序性细胞死亡(PCD)通路图谱,鉴定出SGPL1、NPC2、PTGDS和RCAN1四个关键诊断基因,并构建了诊断列线图和PCD风险评分(PCDscore)。该模型在训练集及两个独立验证集(GSE79768, GSE282504)中均表现出强大判别力,高PCDscore患者呈现显著免疫细胞浸润(尤其巨噬细胞)及免疫调节剂失调。实验验证证实SGPL1、NPC2、RCAN1在AF细胞模型中上调而PTGDS下调,NPC2和SGPL1在AF患者外周血单核细胞(PBMCs)中亦升高。研究为AF的精准诊断及靶向干预提供了新视角。

  
Abstract
Purpose
心房颤动(AF)是导致卒中、心力衰竭和死亡的主要原因,但其分子机制尚未完全阐明。
Patients and Methods
研究整合了GEO数据库的批量转录组数据,应用加权基因共表达网络分析(WGCNA)、共识聚类以及一个包含12种算法(66种模型组合)的机器学习流程,以绘制程序性细胞死亡(PCD)通路图谱并精确定位诊断基因。使用CIBERSORT、xCell和ssGSEA进行免疫浸润分析。关键基因(Hub-gene)的表达在HL-1心房快速起搏模型和持续性AF患者的外周血单核细胞(PBMCs)中得到了验证。
Results
研究鉴定出四个关键基因——SGPL1、NPC2、PTGDS和RCAN1,并将其纳入诊断列线图(nomogram)和基于PCD的风险评分(PCDscore)。该列线图在训练队列和两个独立验证数据集中均显示出强大的判别能力。高PCDscore患者表现出显著增加的免疫细胞浸润和失调的免疫调节剂,且巨噬细胞在不同算法中均一致富集。qRT-PCR证实了AF细胞模型中SGPL1、NPC2和RCAN1的上调以及PTGDS的下调;NPC2和SGPL1在AF患者的PBMCs中进一步升高。
Conclusion
该整合分析框架揭示了AF中与PCD相关的重塑过程,并提出SGPL1、NPC2、PTGDS和RCAN1作为候选诊断生物标志物,提供了一个基于PCD的列线图和风险评分,可能为患者分层和产生假设的靶向干预提供信息。
Introduction
心房颤动(AF)是全球最常见的持续性心律失常,目前影响超过3300万人,因其日益增长的发病率以及与显著发病率和死亡率的关联而构成重大公共卫生负担。在分子水平上,AF源于复杂的电生理和病理过程,包括电重构和结构重构、钙处理受损和心房纤维化。尽管药物疗法和导管消融技术取得了显著进展,但这些治疗的效果仍然有限,特别是对于持续性AF,其特点是高复发率、疗效不理想以及难以阻止疾病进展。现有治疗策略疗效欠佳且缺乏个性化,反映了我们对驱动AF发生发展的潜在分子机制理解存在关键空白。
程序性细胞死亡(PCD)是一种高度调控的细胞过程,涉及选择性清除受损或不必要的细胞,近年来因其在心血管疾病中的复杂作用而受到关注。目前,多种PCD亚型已被广泛表征,包括凋亡(apoptosis)、坏死性凋亡(necroptosis)、焦亡(pyroptosis)、铁死亡(ferroptosis)、自噬依赖性细胞死亡(autophagy-dependent cell death)、溶酶体依赖性细胞死亡(lysosome-dependent cell death)和铜死亡(cuproptosis)。越来越多的证据表明,失调的PCD显著促进病理过程,如心肌重构、慢性炎症、内皮功能障碍和心肌细胞丢失,从而在心肌梗死、心力衰竭和动脉粥样硬化中发挥关键作用。
然而,PCD在AF发病机制中的具体作用仍未完全了解且研究不足。近期证据表明,某些类型的PCD,包括凋亡和铁死亡,可能促进心房重构过程,其特征是进行性纤维化、钙处理受损和氧化应激增加,这些都可能促进AF的发生和维持。尽管如此,现有研究大多孤立地考察这些PCD亚型,缺乏跨多个数据集和生物学背景的综合、整合分析。因此,对PCD亚型及其在心房心肌内相互作用的整合分析对于识别新的分子生物标志物和治疗靶点至关重要。
本研究应用了一个整合生物信息学和机器学习的框架——包含来自12种算法的66种模型组合——来系统识别AF中关键的PCD相关基因。四个关键基因(SGPL1、NPC2、PTGDS和RCAN1)被用于构建诊断模型和基于PCD的风险评分(PCDscore)。它们的表达模式在AF细胞模型和患者PBMCs中均得到验证,证实了其临床相关性。此外,还探索了潜在的治疗候选化合物,其中托德拉嗪(todralazine)被确定为靶向这些关键基因的潜在治疗化合物。这种计算与实验相结合的方法为PCD在AF发病机制中的作用提供了新的见解,并为精准诊断和靶向干预提供了有前景的生物标志物。
Material and Methods
Dataset Collection and Processing
从基因表达综合(GEO)数据库获取AF患者的基因表达数据,包括GSE41177、GSE115574、GSE79768和GSE282504。使用R软件进行数据处理。合并GSE41177和GSE115574作为训练集,并使用“sva”包去除批次效应。从先前文献和Genecards数据库提取14种PCD相关基因。使用“limma”包识别AF组与窦性心律(SR)组之间的差异表达基因(DEGs),筛选标准为 |log2FC| > 0.25 且 P值 < 0.05。
Consensus Clustering Analysis
使用“ConsensusClusterPlus”包进行无监督共识聚类。通过检查累积分布函数(CDF)曲线和delta面积图确定最佳聚类数(k)。
Functional Enrichment Analysis
使用“clusterProfiler”包进行基因本体(GO)和京都基因与基因组百科全书(KEGG)富集分析。使用MSigDB中的基因集进行基因集富集分析(GSEA)。使用“GSVA”包进行单样本GSEA(ssGSEA)以计算每个样本的GSVA分数。
Weighted Gene Co-Expression Network Analysis
进行加权基因共表达网络分析(WGCNA)以识别与PCD相关的基因模块。选择软阈值功率(β)以满足无标度拓扑标准(R2 > 0.8)。通过计算模块特征基因与样本性状之间的Pearson相关性来评估模块-性状关系。选择与PCD相关性最强的模块中的基因进行后续分析。
Machine Learning and Construction of Diagnostic Model
使用十二种机器学习算法(包括弹性网络、Lasso、岭回归、随机森林、XGBoost等)的66种模型组合来识别最佳诊断标志物。通过受试者工作特征曲线下面积(AUC)评估模型性能。使用四个关键基因构建诊断列线图,并通过校准曲线和决策曲线分析(DCA)评估准确性和临床获益。
PCDscore Construction
基于四个关键基因的表达,通过主成分分析(PCA)建立PCDscore:PCDscore = ∑(PC1i+ PC2i),其中i代表四个关键基因的表达。
Immune Infiltration Analysis
使用CIBERSORT、xCell和ssGSEA算法估算免疫细胞浸润。比较AF亚型之间的免疫调节剂并可视化。
Prediction of Transcription Factors and microRNAs (miRNAs)
使用ChIPBase和ENCORI数据库预测与四个关键基因相关的转录因子(TFs)和miRNA。通过Cytoscape软件可视化网络图。
Molecular Docking Simulation
使用Enrichr中的Connectivity Map(CMap)数据库识别靶向关键基因的潜在治疗化合物。从PubChem获取托德拉嗪(CID:5501)的2D结构。从PDB数据库检索蛋白质结构(NPC2: 5KWY; PTGDS: 3O22; RCAN1: 6UUQ; SGPL1: 8AYF)。使用CB-Dock2在线工具进行分子对接和可视化。
Cell Culture and AF Cell Model
使用HL-1心房肌细胞系。通过快速电起搏(5 Hz,24小时)建立AF细胞模型。假起搏组作为阴性对照。
Clinical Samples and PBMC Isolation
从大连理工大学附属中心医院心内科招募持续性AF患者(n=54)和年龄、体重指数(BMI)匹配的健康对照(n=47)。采集外周血并分离PBMCs。研究方案经大连理工大学附属中心医院伦理委员会批准(批准号:YN2024-134-26),所有参与者均签署知情同意书。
RNA Extraction and Quantitative Real-Time PCR (qRT-PCR)
从HL-1细胞或PBMCs中提取总RNA,反转录为cDNA,使用SYBR Green进行qRT-PCR。以β-肌动蛋白(β-actin)作为内参基因,使用2?ΔΔCt方法计算相对基因表达量。
Western Blotting
使用RIPA裂解液提取HL-1细胞总蛋白,BCA法定量,SDS-PAGE分离后转膜,使用特定一抗和二抗进行检测,ECL显色。
ELISA
使用商业ELISA试剂盒检测细胞培养上清或样本中特定蛋白水平。
Statistical Analysis
使用R软件进行统计分析。连续变量以均值±标准差表示。两组比较采用非配对t检验或Mann-Whitney U检验。多组比较采用单因素方差分析(ANOVA)或Kruskal-Wallis检验。P值 < 0.05认为有统计学意义。
Results
Identification of Key PCD Types and Genes in AF
研究流程图展示了整体流程。合并GSE41177和GSE115574数据集(37例SR和60例AF样本)并去除批次效应。热图显示九种细胞死亡类型在SR组和AF组间存在显著差异。使用LASSO机器学习算法筛选出凋亡、铁死亡、自噬和溶酶体依赖性细胞死亡作为AF中的关键PCD类型。多变量逻辑回归识别出81个具有诊断意义的基因,与四种关键PCD类型取交集后得到53个基因,用于构建网络。
PCD-Related Subtypes in AF
应用53个诊断性PCD基因进行共识聚类分析,将AF患者分为两个AF亚型。通过累积分布函数(CDF)分析确定最佳聚类稳定性(k=2)。鉴定出两个聚类之间的差异表达基因(DEGs)。GO和KEGG富集分析显示这些DEGs富集于细胞间粘附调节、免疫反应激活、DNA结合转录因子结合等生物学过程,以及趋化因子信号通路、NOD样受体信号通路和Hippo信号通路等通路。GSVA分析显示基因在JAK STAT3信号、凋亡和PI3K AKT MTOR信号等通路中富集,提示这些通路可能在AF发展中起关键作用。
Weighted Gene Co-Expression Network Analysis and Identification of Key Modules Genes Associated with AF Progression
通过WGCNA方法识别与AF进展相关的关键模块基因。设置软阈值功率为7。层次聚类模块相异性生成树状图,识别出14个不同的共表达模块。粉色模块与cluster1组呈最强负相关(r = -0.82, P<0.001)。粉色模块基因与DEGs取交集,得到16个基因,用于后续机器学习分析。
Identification of Hub Genes Related to PCD with Diagnostic Value in AF Based on Integrative Machine Learning
为深入探索16个基因特征,采用了66种12种机器学习算法的组合进行变量选择和模型开发。所有模型的AUC值排名显示,XGBoost表现最佳,在训练数据集中AUC为0.983,在外部验证数据集GSE79768和GSE282504中AUC分别为0.688和0.735。最终,模型筛选出四个关键基因:SGPL1、NPC2、PTGDS和RCAN1。计算每个关键基因在训练集和验证数据集中的AUC值,表明这四个基因均具有良好的诊断价值。
Developing a Diagnostic Model Based on Hub Genes
基于四个关键基因,开发了用于预测AF发生的列线图。列线图中每个诊断标志物对应其轴上的一个特定分值,总分预测AF风险。诊断模型的校准曲线与理想对角线非常接近,表明预测结果与观察结果具有极好的一致性。决策曲线分析(DCA)曲线显示了诊断模型的准确性,可能为AF患者提供临床获益。该诊断模型在训练集和验证队列中均表现出优异的判别性能,训练集AUC为0.933,GSE79768验证集AUC为0.982,GSE282504验证集AUC为0.930。列线图模型在ROC分析中优于单个关键基因,证实了其对于AF发生的优越预测效用。
Functional Annotation and Immune Landscape of PCDscore
基于四个关键基因的表达谱建立了评分模型,命名为PCDscore。根据PCDscore的中位数,将AF患者分为高风险组和低风险组。鉴定出两个风险组之间的908个DEGs,其中574个上调,334个下调。KEGG分析显示DEGs主要富集于免疫反应激活、ERK1和ERK2级联、MAPK级联的正调控、PI3K-Akt信号通路和MAPK信号通路等。使用CIBERSORT、ssGSEA和xCell算法分析两组间的免疫景观,观察到高风险组的免疫细胞浸润水平显著升高,且巨噬细胞富集在三种算法中均显著升高。此外,高风险组的免疫调节剂水平高于低风险组。相关性分析表明,PCDscore以及NPC2和SGPL1与多种免疫细胞群显著相关,特别是活化的CD8+T细胞、Gamma delta T细胞、巨噬细胞和髓源性抑制细胞(MDSCs)。总之,高风险组患者表现出 elevated immune infiltration and immunoregulatory molecules,这可能促进AF进展。
Single-Gene GSEA of Hub Genes
使用单基因GSEA方法进一步探索关键基因的生物学功能和通路。发现关键基因与多种生物学过程相关,如趋化因子信号通路、三羧酸(TCA)循环、p53信号通路、糖异生、线粒体翻译和氧化磷酸化。这些结果表明关键基因可能在调控细胞死亡和代谢中起关键作用。
Construction of Regulatory Network of Hub Genes
为探索关键基因的上游分子调控因子,进行了TF/miRNA-mRNA网络分析。通过ENCORI数据库鉴定出42个潜在的miRNA(连接度≥2)。miR-7-5p是NPC2、RCAN1和PTGDS的共同miRNA。通过ChIPBase数据库,鉴定出26个TFs(连接度≥2)。YY1是NPC2、RCAN1和SGPL1的共同TF。
Prediction of Drugs and Molecular Docking for Hub Genes
通过CMAP数据库识别靶向关键基因的潜在治疗药物。托德拉嗪(todralazine)成为得分最高的重新利用候选药物。对四个关键蛋白进行了分子对接。托德拉嗪与四个关键基因的Vina得分均小于-5,表明结合亲和力强。
Experimental Validation of Hub Genes in vitro and Human Sample
HL-1心肌细胞快速起搏是广泛使用的AF体外模型。验证了起搏HL-1细胞中HSPA1A/NPPA/NPPB的表达增加以及上清中ANP/BNP水平升高。通过qRT-PCR和Western blot检测起搏HL-1细胞中四个关键基因的表达:SGPL1、NPC2和RCAN1显著上调,而PTGDS下调。在PBMCs中,AF患者的NPC2和SGPL1表达高于对照组。
Discussion
心房颤动(AF)仍然是卒中、心力衰竭和全因死亡的主要贡献者。尽管药物疗法和导管消融技术取得了显著进展,但临床疗效仍不理想且缺乏个性化。这些局限性凸显了迫切需要阐明AF的潜在分子机制——特别是那些涉及程序性细胞死亡(PCD)通路的机制。
本研究通过整合生物信息学和机器学习方法,系统鉴定出四个与AF相关的PCD相关关键基因——SGPL1、NPC2、PTGDS和RCAN1。基于这些基因,我们建立了一个高性能的诊断模型,并推导出能稳健反映免疫和分子异质性的PCDscore;值得注意的是,高风险患者表现出显著的免疫细胞浸润和明显的免疫调节剂失调。临床上,这些发现为AF的精准诊断和个体化风险评估奠定了基础,并为开发旨在调节PCD通路的靶向干预措施提供了理论依据。
我们的研究强调了四种关键的PCD机制——凋亡、自噬、铁死亡和溶酶体依赖性细胞死亡——作为AF发病机制的关键贡献者。凋亡是一种caspase依赖性过程,导致受控的细胞解体;在AF中,它由心外膜脂肪来源的细胞外囊泡携带促炎和促纤维化介质(如细胞因子和miR-146b)以及β-羟基丁酸诱导的线粒体功能障碍所促进,从而促进纤维化和致心律失常性。自噬在AF中扮演双重角色。基础自噬通过线粒体自噬清除受损线粒体和维持蛋白质稳态,作为一种心脏保护机制,可能预防AF发生。然而,过度或失调的自噬——由快速电起搏、炎症、中性粒细胞胞外陷阱(NETs)或N-棕榈酰甘氨酸诱导——可能通过降解必需的心脏蛋白(如Cx43、L型钙通道和NRAP)加速AF进展,导致电重构和结构重构。铁死亡是一种铁依赖性细胞死亡形式,以脂质过氧化和GPX4抑制为特征,也与心房重构有关。铁死亡抑制剂(如伊卡里黄素和ferrostatin-1)可通过SIRT1–Nrf2–HO-1信号通路减轻乙醇诱导的AF,凸显铁死亡是一个有前景的治疗靶点。溶酶体依赖性细胞死亡由溶酶体膜透化启动,以组织蛋白酶和氧化还原活性铁释放到胞质为特征,可能代表AF中一个未充分探索的机制。这一过程可能导致蛋白水解降解和细胞死亡,提示其可能在心房组织损伤和电不稳定性中起作用。对该通路的进一步研究可能发现新的治疗策略。
在这些关键基因中,据我们所知,SGPL1和NPC2尚未在AF背景下被报道或系统研究,这凸显了本研究揭示的PCD与AF之间的新机制联系。SGPL1编码鞘氨醇-1-磷酸裂解酶,该酶不可逆地降解S1P(一种参与免疫调节、线粒体功能和细胞存活的脂质信号分子)。SGPL1缺陷导致S1P积累,损害自噬,通过NPR2/p21通路破坏生殖细胞发育,并促进神经炎症和免疫细胞活化。SGPL1突变与鞘氨醇磷酸裂解酶 insufficiency syndrome相关,这是一种以神经功能缺损和免疫功能障碍为特征的全身性疾病。SGPL1缺陷导致S1P积累,损害自噬流并促进炎症细胞浸润,这些过程可能加剧心房纤维化和电不稳定性。我们发现SGPL1在AF中显著上调,表明改变的S1P代谢可能是心房组织中PCD相关重构的驱动因素。
NPC2编码一种溶酶体胆固醇结合蛋白,与NPC1协同介导细胞内胆固醇转运。除了在脂质稳态中的作用外,NPC2失调可触发溶酶体膜透化,释放组织蛋白酶等蛋白酶,启动溶酶体依赖性细胞死亡。在免疫背景下,NPC2调节影响抗原呈递和炎症信号,这两者都可能影响AF中的促炎微环境。在AF细胞模型和患者PBMCs中均观察到NPC2的上调,支持其在AF发病机制中连接脂质代谢、免疫激活和PCD的潜在作用。
AF具有相当大的临床和分子异质性,这导致对标准疗法的反应差异很大。近期研究强调了免疫重塑——特别是巨噬细胞驱动的炎症——在AF的维持和进展中的作用。促炎性CCR2+巨噬细胞浸润心房组织,并通过分泌细胞因子(如IL-1β、TNF-α和TGF-β)促进电重构和结构重构。这些炎症介质促进心房纤维化和致心律失常性。在我们的研究中,免疫景观分析显示高风险组患者表现出显著的巨噬细胞、CD8+T细胞和髓源性抑制细胞(MDSCs)浸润,以及失调的免疫调节剂。这些观察结果与先前研究表明免疫重塑,特别是巨噬细胞驱动的炎症,有助于心房结构改变和致心律失常性的观点一致。这表明PCD相关的分子改变可能增强免疫介导的心房重构,为分子死亡通路与临床AF表型之间提供了机制联系。
从转化角度来看,我们的药物重定位分析将托德拉嗪——一种成熟的抗高血压药物——确定为一种潜在靶向所有四个关键蛋白的化合物,分子对接表明其结合亲和力强。鉴于其已知的安全性,托德拉嗪可能代表一个可行的候选药物,用于调节AF中的PCD相关通路。这一发现与近期心血管疾病药物重定位的进展一致。虽然当前证据仅限于计算机对接,但这些结果为靶向临床前研究提供了理论依据,以评估托德拉嗪是否能影响PCD驱动的心房重构。此类研究可能有助于确定其作为AF患者(特别是被我们的PCDscore模型归类为高风险的患者)辅助治疗选择的潜在作用。
我们的多组学分析和验证支持一个工作模型,其中心房肌细胞中PCD连接的代谢-溶酶体重塑放大了危险信号(例如,改变的鞘脂/溶酶体流、氧化应激),这反过来又促进了心房微环境中的髓系募集和活化。高PCDscore亚组在三种反卷积算法中显示出一致的巨噬细胞富集和免疫调节剂失调,表明PCD启动的心肌细胞可能与心房巨噬细胞共同塑造一个炎症前馈环路。在此框架下,HL-1起搏捕获了心肌细胞内在臂(PCD/代谢应激),而PBMC检测反映了与心房炎症相关的系统性免疫轴。这种双轴原理证明了在现阶段使用单一心肌细胞模型加人PBMCs来正交验证生物信息学信号的可行性,同时认识到需要体内确认。
尽管如此,本研究有几个局限性。首先,虽然HL-1快速起搏和患者PBMCs在心肌细胞内在和免疫区室上提供了正交验证,但并未确立四个关键基
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号