整合转录组与单细胞测序揭示溶酶体离子通道基因作为阿尔茨海默病新型生物标志物及其在CD4+ T细胞中的调控机制
【字体:
大
中
小
】
时间:2025年10月09日
来源:Frontiers in Genetics 2.8
编辑推荐:
本研究通过整合多组学分析(WGCNA、单细胞RNA测序)鉴定出SRP14、EIF3E和COX7C作为阿尔茨海默病(AD)的新型溶酶体离子通道相关生物标志物,揭示其在CD4+ T细胞分化异常和神经炎症调控中的核心作用,为AD的早期诊断和靶向治疗提供了新方向。
引言
阿尔茨海默病(AD)作为最常见的神经退行性疾病,以进行性认知功能障碍和典型病理特征(如Aβ斑块和神经纤维缠结)为主要表现。全球AD患病率预计在2050年将超过1.38亿例,对社会造成巨大的社会经济负担。当前治疗方法如乙酰胆碱酯酶抑制剂和NMDA受体拮抗剂仅能缓解症状,无法阻止疾病进展,因此迫切需要阐明AD的分子机制并识别新的治疗靶点。
溶酶体功能障碍在AD发病机制中扮演核心角色。溶酶体作为酸性细胞器,负责细胞废物降解,并调节Aβ清除和神经元稳态。近年研究发现溶酶体离子通道(包括TRPML1、TPCs和TMEM175)是调控溶酶体pH、离子平衡和自噬流的关键分子,对预防毒性蛋白聚集至关重要。例如,TRPML1通过促进自噬体-溶酶体融合(经由p62/dynein通路)和增强轴突运输及脑源性神经营养因子(BDNF)信号传导,加速细胞内Aβ的降解和清除。然而,溶酶体离子通道相关基因(LICRGs)在AD中的系统表征,尤其是其细胞类型特异性作用及与免疫细胞的相互作用,仍缺乏深入探索。
单细胞RNA测序(scRNA-seq)技术为解析AD中的细胞异质性提供了前所未有的分辨率。近期scRNA-seq研究揭示了AD大脑中微胶质细胞亚型的失调和T细胞浸润,强调了神经炎症在疾病进展中的作用。但LICRGs在免疫细胞功能障碍(如CD4+ T细胞分化和细胞因子信号传导)中的参与仍知之甚少。此外,现有许多关于LICRGs的研究依赖于批量转录组分析,这掩盖了细胞特异性表达模式。
本研究以LICRGs为焦点,采用“多数据集整合-多方法关键基因筛选-单细胞功能载体定位-多维度机制阐释-临床转化验证”的综合研究框架,最终识别出关键基因和细胞群体,阐明AD进展的潜在机制,并提供有价值的诊断模型和治疗靶点,为AD机制研究和临床干预提供新方向。
材料与方法
数据提取
从基因表达综合数据库(GEO)下载了与AD相关的转录组数据集GSE63061和GSE63060。GSE63061(GPL10558平台)包括139例AD和134例对照血液样本,GSE63060(GPL6947平台)包括145例AD和104例对照血液样本。从GEO获取的scRNA-seq数据GSE181279(GPL24676平台)包括3例AD患者和2例健康对照的免疫细胞样本。根据先前研究,选择了六个LICRGs:TPC1、TPC2、TMEM175、TRPML1、CLN1和CLC-7。
差异表达分析
使用“limma”包(版本3.56.2)识别GSE63061中AD与对照样本之间的差异表达基因(DEGs),阈值设定为|log2FC| ≥ 0.2且P < 0.05。通过火山图(ggplot2,版本3.3.6)和热图(heatmap3,版本1.1.9)可视化DEGs。基因按|log2FC|降序排序,火山图突出显示前五个最显著上/下调基因,热图显示前十位。
WGCNA
在GSE63061中,使用单样本基因集富集分析(ssGSEA)算法计算样本的LICRG评分,以LICRGs为背景基因集。评估AD和对照队列间LICRG评分的差异,发现具有统计学意义(P < 0.05)。使用加权基因共表达网络分析(WGCNA,版本1.7.1)识别关键模块。对所有GSE63061样本进行聚类分析以排除异常。确定最佳软阈值和平均连接度,评估基因连接的紧密度,确保构建的共表达网络近似无标度分布。构建共表达矩阵,最小模块大小为50基因。生成不同颜色的基因模块,并识别与LICRG评分显著相关的模块(|Spearman cor| > 0.3且P < 0.05)。选择相关性最强(最高正/负cor)的模块作为关键模块,这些关键模块内的基因被视为枢纽基因。
交集基因的生物学表征和候选基因识别
从差异表达转录本和关键网络组分的交集中得到共识基因组元件。使用“clusterProfiler”包(版本4.8.2)进行基因本体(GO)和京都基因与基因组百科全书(KEGG)通路分析,以探索交集基因的功能(调整后P < 0.05)。为进一步研究交集基因间的蛋白质相互作用,使用STRING数据库(置信度评分阈值>0.4)构建蛋白质-蛋白质相互作用(PPI)网络。使用Cytoscape(版本3.9.1)可视化网络。采用MCODE插件进行PPI分析,以识别后续验证的候选基因。
机器学习和基因表达分析
应用最小绝对收缩和选择算子(LASSO)和Boruta算法从候选集中筛选特征基因。使用“glmnet”包(版本4.1.4)进行LASSO分析,结果在最小lambda值处确认。使用“Boruta”包(版本8.0.0)应用Boruta算法识别关键基因。选择LASSO和Boruta交集基因作为特征基因。随后在GSE63061和GSE63060数据集中进行这些特征基因的基因表达分析。在AD和对照组间显示显著差异表达,且在两个数据集中表达趋势一致的基因被指定为候选生物标志物。
单细胞RNA测序分析
使用“Seurat”包(版本4.3.0)处理GSE181279数据集的scRNA-seq数据。根据质量控制(QC)标准去除低质量细胞,阈值设定为200 < nFeature_RNA < 2,500、nCount_RNA < 8,000且percent.mt < 15%。使用“LogNormalize”函数进行数据标准化,并使用“FindVariableFeatures”函数的vst方法选择前2000个高变基因(HVGs)。随后使用“RunPCA”函数对2000个HVGs进行主成分分析(PCA),并使用“IntegrateLayers”函数内的RPCAIntegration方法进行样本整合。根据肘部图选择主成分(PCs)。随后使用t分布随机邻域嵌入(t-SNE)以分辨率1对细胞进行聚类。使用“singleR”(版本2.0.0)基于文献挖掘确定的标记基因进行细胞注释。评估注释细胞内提议生物标志物的表达,在这些细胞中显示显著表达的基因被视为生物标志物。使用Wilcoxon秩和检验进行进一步分析。当所有候选生物标志物在AD和对照组间显示显著表达差异(P < 0.05)时,这些细胞被指定为关键细胞。
细胞间信号和伪时序轨迹分析
为研究不同细胞类型间的相互作用并更深入理解关键细胞,使用“CellChat”(版本1.6.1)在GSE181279数据集中进行细胞间通讯分析。此外,为探索关键细胞的分化状态和轨迹,使用“monocle”(版本2.26.0)进行伪时序分析。伪时序系列代表抽象生物过程,将细胞发育状态映射到伪时序轨迹上,计算基因随伪时序的表达变化,并推断细胞的发育状态。随后生成对细胞分化贡献最大的前100个基因的表达热图。使用“clusterProfiler”包对这100个基因进行GO和KEGG通路富集分析(调整后P < 0.05),以识别细胞分化过程中显著改变的通路。
预测评分系统的开发和校准
基于识别的生物标志物构建列线图,使用“rms”包(版本6.3.0)预测AD风险。为评估列线图的预测准确性,生成校准和决策曲线。如果校准曲线的Hosmer-Lemeshow(HL)检验P值大于0.05(表明模型校准良好),一致性指数(C-index)超过0.7(表明良好的区分能力),且决策曲线的净收益非零,则认为该模型能够有效区分AD患者和健康对照。
生物标志物的功能分析
为进一步探索与生物标志物相关的生物学功能和信号网络,进行基因集富集分析(GSEA)。与传统的GO和KEGG富集分析不同,GSEA基于“基因集的整体趋势”而非单个基因功能注释,识别与关键基因相关的通路活性变化。首先确定每个生物标志物与GSE63061数据集中所有其他基因的关联强度(通过Spearman相关),关联从最强到最弱排序。使用“msigdbr”包(版本7.5.1)下载C2:KEGG基因集作为背景集。随后进行GSEA,将排序基因在背景基因集中富集,调整后P值阈值设定为< 0.05。
逆转录定量PCR(RT-qPCR)
从山西白求恩医院收集共20份血液样本(10份来自AD患者,10份来自健康对照)。所有参与者提供知情同意,研究经医院伦理委员会批准(批准号:YXLL-2025-151)。使用TRIzol试剂(Ambion,美国)按照制造商协议从样本中提取总RNA。使用NanoPhotometer N50评估RNA完整性和浓度。使用SureScript第一链cDNA合成试剂盒在Bio-Rad S1000TM Thermal Cycler上进行互补DNA(cDNA)合成。qPCR所用引物序列列于S1表(补充)。使用Bio-Rad CFX Connect Real-Time PCR系统进行定量实时PCR(qPCR)扩增。热循环参数包括初始变性步骤95°C 1分钟,随后40个扩增循环(变性:95°C 20秒,引物退火:55°C 20秒,延伸:72°C 30秒)。使用2?ΔΔCT方法量化基因表达水平。
统计分析
在R(版本4.2.2)中进行统计分析。组间差异使用Wilcoxon检验分析(P < 0.05)。对于组间PCR结果比较,使用独立样本t检验(P < 0.05)。
结果
识别134个DEGs和847个关键模块基因
差异表达分析识别出AD和对照组间的134个DEGs,包括6个上调和128个下调基因。热图确认了稳健的数据质量和可靠的差异分析,揭示了AD和对照组间基因表达模式的显著分歧。具体而言,AD组表现出上调趋势(P < 0.05),突出了反映AD相关生物学过程的协调基因表达变化。为识别训练集中与溶酶体离子通道相关的模块基因,进行了WGCNA。该分析揭示了驱动AD发病机制的互连基因模块,对于理解单个基因如何协作以促进疾病至关重要。AD样本的LICRG评分显著高于对照(P = 0.00096)。GSE63061数据集分析未识别出异常样本(指在统计上显著偏离数据集中大多数观测值的样本),因为层次聚类中cutreeStatic函数的cutHeight参数根据树状图的自然分支模式客观设置为45,确保稳定簇分离而不过度分裂生物学相关群体。最佳软阈值(β)确定为8,基于尺度自由R2接近0.8且平均连接度接近零,确保网络近似无标度分布。对具有高拓扑重叠的模块进行聚类,产生13个不同的共表达组,每个分配独特颜色。发现LICRG评分与模块特征基因间存在显著关联:MEblack显示强正相关(r = 0.78,P = 1e-56),而MEturquoise显示负相关(r = ?0.46,P = 7e-16)。因此,选择MEblack和MEturquoise模块中的847个基因作为关键模块基因。
94个交集基因在核糖体通路中的富集
使用维恩图识别AD中与溶酶体离子通道相关的DEGs,旨在过滤出可能驱动AD发病机制的“一致失调基因”。通过重叠134个DEGs和847个关键模块基因,共识别出94个交集基因。功能富集分析显示这些94个基因显著富集于303个GO条目和23个KEGG通路(调整后P < 0.05)。显著的GO条目包括“核糖体”、“细胞质翻译”和“核糖体的结构组成”等。前五个显著富集交集基因的KEGG通路是“冠状病毒病-COVID-19”、“氧化磷酸化”、“帕金森病”、“朊病毒病”和“核糖体”。在神经退行性疾病背景下,该基因集的功能障碍可能导致错误折叠蛋白合成增加或核糖体功能障碍,从而加剧病理损伤。使用94个交集基因构建PPI网络,排除异常基因,得到包含90个节点和826条边的网络。例如,RPL21和RPL17与其他基因显示强相互作用。使用MCODE插件生成包含前30个基因的子网络,揭示这些基因在蛋白质水平的相互作用。该子网络包含30个节点和387条边,基因如RPS3A和RPL31显示紧密相互作用。这30个基因被选作进一步分析的候选靶点。
识别7个候选生物标志物
数据挖掘方法包括LASSO和Boruta,结合表达水平验证,用于有效识别候选生物标志物。LASSO方法(lambda min = 0.007)从30个候选基因中选择15个基因,而Boruta方法识别12个基因。重叠两种方法的结果导致识别出7个特征基因(SRP14、RPL11、RPL6、EIF3E、COX7C、RPL7和RPS24)。GSE63061和GSE63060数据集中AD和对照样本的比较显示所有7个特征基因表达显著降低(P < 0.05),将其指定为AD的候选生物标志物。
生物标志物验证和关键细胞识别
为识别关键细胞,进行了scRNA-seq和细胞聚类分析。最初过滤掉不合格细胞,仅保留合格细胞用于进一步分析。识别出一组2000个HVGs,随后进行PCA,显示数据整合后无显著批次效应。选择前30个PCs进行下游分析。随后使用t-SNE将QC通过的细胞分配到20个不同的簇中,并注释了九种细胞类型,包括CD4+ T细胞、CD8+ T细胞、自然杀伤(NK)细胞、B细胞、自然杀伤T(NKT)细胞、CD4 NKT细胞、CD8 NKT细胞、单核巨噬细胞和巨核细胞。
在细胞类型中,SRP14(P = 3.0532e-22)、EIF3E(P = 1.5990e-26)和COX7C(P = 3.5062e-03)在多个注释细胞群体中显示一致高表达,尤其在CD4+ T细胞中。因此,选择SRP14、EIF3E和COX7C作为生物标志物,并将CD4+ T细胞视为关键细胞进行进一步研究。此外,在CD4+ T细胞中,SRP14、EIF3E和COX7C的转录本丰度在AD样本中显著降低,与转录组数据集中的表达模式一致。RT-qPCR进一步证实了AD样本中SRP14(P = 0.0018)、EIF3E(P = 0.0270)和COX7C(P = 0.0430)的表达降低。相对较大的误差条(代表标准差/标准误)主要归因于临床AD样本中的个体间异质性。具体而言,两个关键因素导致了这种变异性:65-88岁的广泛年龄范围导致固有的生理变异性,以及样本间基线健康状况的差异,部分AD患者同时诊断为高血压或2型糖尿病。与年龄相关的生理衰退,加上这些合并症带来的氧化应激,可能加剧了EIF3E、SRP14和COX7C表达的波动。尽管存在这些可变误差条,核心趋势保持一致,观察到的个体间异质性客观反映了临床AD样本的真实世界特征,为后续基于疾病分层的验证研究奠定了基础。
CD4+ T细胞促进AD发病机制
为研究CD4+ T细胞在AD发病机制中的作用,进行了细胞通讯分析、伪时序分析和细胞富集通路分析。GSE181279数据集中的细胞间通讯分析揭示了关键CD4+ T细胞与其他注释细胞类型在AD和对照样本中的显著相互作用。值得注意的是,CD4+ T细胞与B细胞以及NKT细胞间的相互作用在对照样本中比AD患者中更为显著。在AD晚期,CD4+ T细胞增强分化为Th1/Th17亚群,CD8+ T细胞要么耗竭要么过度激活,NK细胞功能受损。它们协作相互作用的破坏(例如细胞间通讯减少)导致“不受控制的炎症和病理清除失败”,最终加速神经元死亡和认知衰退。这些发现与我们的结果一致。
CD4+ T细胞的伪时序分析表明,对照组中的细胞主要处于分化早期阶段,而来自AD患者的CD4+ T细胞主要处于更晚期阶段。在此之前,我们整合的PCA图显示AD样本和对照样本的细胞在降维空间中混合,未观察到明显的组聚类。这确认批次效应已得到有效控制。COX7C、EIF3E和SRP14的表达水平在CD4+ T细胞分化过程中显示先增加后减少的趋势。
此外,分析了对CD4+ T细胞分化贡献最大的前100个基因。GO分析显示在“单核细胞分化”、“α-β T细胞分化”、“泛素样蛋白连接酶结合”和“细胞-基质连接”等相关条目中显著富集。这些结果表明这些基因可能通过调控CD4+ T细胞成熟、微环境锚定和翻译后修饰,影响AD中CD4+ T细胞功能障碍和神经炎症。KEGG通路分析进一步识别出在“凋亡”、“Th17细胞分化”、“利什曼病”、“坏死性凋亡”和“破骨细胞分化”等相关通路中显著富集。AD中的这些异常可能导致CD4+ T细胞偏向促炎亚群、细胞存活失衡以及神经炎症放大,从而加剧神经元损伤。
列线图展示强大预测性能
为评估生物标志物的预测潜力,基于识别的生物标志物构建了列线图。列线图显示较高总分与增加的AD风险相关。校准曲线显示HL检验P值为0.417,表明预测概率与实际概率间良好一致性。模型的C-index为0.726,确认其有效区分AD和对照组。此外,决策曲线显示与单独使用单一因素相比,模型具有更高的净收益,突出了其诊断效用。这些结果强调了列线图的强大预测能力。
生物标志物功能的探索
进行GSEA以将生物标志物置于已确立的生物学通路背景中,避免孤立基因分析。GSEA结果显示EIF3E、COX7C和SRP14在“核糖体”、“氧化磷酸化”、“帕金森病”和“趋化因子信号通路”等通路中显著共富集。这表明这三个生物标志物可能通过调控蛋白质合成、线粒体能量代谢、神经退行性疾病共享机制和脑内免疫炎症,共同促进AD的病理进展。
讨论
AD作为一种神经退行性疾病,其特征是破坏神经元完整性和突触功能的病理变化,最终导致认知衰退。溶酶体功能障碍在AD相关病理聚积物积累和神经变性中扮演关键角色。具体而言,溶酶体离子通道的失调损害了溶酶体的降解能力,加速AD进展。因此,溶酶体离子通道是连接蛋白质稳态破坏与AD认知衰退的关键分子节点。利用GEO数据库,本研究应用综合生物信息学分析识别出三个关键基因——SRP14、EIF3E和COX7C。富集分析、免疫浸润分析和调控网络分析为AD发病机制以及潜在诊断和治疗途径提供了新见解。
基因作为遗传信息的基本单位,通过编码蛋白质或调控RNA控制细胞过程,其时空表达受到表观遗传修饰、转录因子和转录后机制的严格调控。在AD中,特定基因的失调与关键病理通路有关。例如,COX7C作为线粒体细胞色素c氧化酶复合物的核编码亚基,在AD大脑和外周组织中持续下调。这种下调与受损的线粒体呼吸、 elevated oxidative stress和减少的Aβ清除相关,如神经元模型中 diminished ATP synthesis和 aberrant ROS accumulation所示。从机制上讲,COX7C基因座附近的遗传变异可能 disrupt its transcriptional regulation,进一步加剧AD中的生物能量缺陷。
类似地,SRP14作为信号识别颗粒的组成部分,在肌萎缩侧索硬化(ALS)和额颞叶痴呆(FTD)等神经退行性疾病中显示动态表达模式。SRP14通过调控其翻译和应激颗粒 dynamics,调节TDP-43蛋白质稳态,影响病理蛋白聚集。SRP14可能通过 disrupt the secretion of cathepsins(参与Aβ降解的关键酶)进一步损害AD中的溶酶体功能,这是一种与其在ALS/FTD中作用不同的机制。尽管有这些进展,SRP14和EIF3E在AD相关溶酶体功能障碍中的作用直到本研究才被探索。
单细胞分析识别CD4+ T细胞作为AD中LICRG失调的关键介质,显示 altered differentiation states和受损的细胞间通讯。这与帕金森病(PD)形成对比,在PD中TMEM175(另一种溶酶体离子通道)上调以缓解线粒体应激,突出了疾病特异性调控差异。此外,包含这些生物标志物的列线图模型展示了强大的预测准确性(AUC = 0.726,95% CI: 0.682–0.769),通过校准曲线和决策曲线分析(DCA)验证。这些发现揭示了AD中溶酶体通道与免疫失调间的新分子联系,为风险分层和治疗靶向提供了可转化框架。
基于SRP14、EIF3E和COX7C的表达谱,本研究识别CD4+ T细胞作为AD中的关键细胞亚群。CD4+ T细胞与NK细胞/CD8+ T细胞间的相互作用较对照显著减少。此外,AD相关的CD4+ T细胞主要停滞在分化晚期。这种表型分歧与LICRGs的动态表达模式相关,其在分化中期达到峰值并在终末阶段下降。虽然先前研究暗示CD4+ T细胞在AD相关神经炎症中的作用,但由于个体变异性
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号