基于可解释神经网络的黑质单核转录组分析揭示帕金森病新型基因标志物
《npj Parkinson's Disease》:Neural networks reveal novel gene signatures in Parkinson disease from single-nuclei transcriptomes
【字体:
大
中
小
】
时间:2025年10月22日
来源:npj Parkinson's Disease 6.7
编辑推荐:
本研究针对帕金森病(PD)遗传结构认知不全的难题,开发了一种可解释机器学习框架,通过单核RNA测序(snRNAseq)识别疾病细胞分子标志物并提名候选基因。应用该框架分析四个死后中脑snRNAseq数据集,发现跨数据集一致区分PD与健康细胞的细胞类型特异性基因集(平均平衡准确率0.92),并鉴定出10个新型候选基因。其中GPC6被确定为PD多巴胺能神经元标志物,其罕见变异在三个病例对照队列中显著富集。该开源框架可广泛应用于复杂疾病基因发现。
帕金森病作为一种进行性神经退行性疾病,其典型运动症状包括运动迟缓、震颤和平衡障碍。尽管已知路易体和黑质致密部(SNpc)多巴胺能神经元(DaNeurons)丢失是其病理标志,但越来越多证据表明小胶质细胞、星形胶质细胞和少突胶质细胞等多种细胞类型参与发病过程。该病遗传率约为30%,仅5-10%病例归因于已知基因的单基因变异,其余病例可能源于遗传风险与环境暴露的复杂相互作用。目前已知基因仅能解释16-36%的遗传率,亟需新方法揭示难以捉摸的遗传决定因素。
传统转录组学方法通过揭示差异基因表达(DGE)连接遗传学与疾病生物学,单细胞RNA测序(scRNAseq)尤其能展现疾病相关组织内单个细胞的DGE变化。然而,scRNAseq技术存在两大挑战:患者队列规模限制和DGE检测方法争议。标准DGE方法依赖任意P值和倍数变化阈值,常产生大量显著基因,且难以在数据集间保持一致性。
为突破这些局限,研究人员开发了结合可解释机器学习(ML)与snRNAseq的创新框架。该框架训练ML分类器区分患病与健康细胞转录组,并应用局部可解释模型无关解释(LIME)揭示驱动分类决策的关键基因。这种方法直接优先考虑最小化高影响力基因集,通过特征计数的置换测试实证优化模型性能与输入规模间的平衡。
研究团队首先评估了四种特征选择方法(高变基因HVG、主成分分析PCA、非负矩阵分解NMF、嵌入式主题建模ETM)与四种ML模型(神经网络NN、逻辑回归LR、随机森林RF、支持向量机SVM)的16种组合在七个黑质细胞类型中的分类性能。结果显示PCA特征选择与NN分类器组合表现最佳(平均平衡准确率0.984),但为保障结果生物可解释性,最终选择HVG-NN组合进行后续分析。
应用该框架分析Kamath等、Wang等和Smajic等三个公开snRNAseq数据集,成功注释八种主要细胞类型。NN模型在所有细胞类型中均实现高精度疾病状态分类(平均平衡准确率0.983和0.913),随机化实验证实模型捕获的是真实PD相关表达模式而非噪声。
通过LIME解释NN分类器,研究人员发现跨数据集一致的重要基因标志物。与四种标准DGE方法相比,NN-LIME框架识别跨数据集基因的比例显著更高(10.25% vs 1.24-4.44%),表明其特别擅长识别可推广的疾病分子标志物。置换测试确定各细胞类型最优基因集规模,留一受试者分析进一步验证LIME基因在患者水平泛化能力。
生物学意义分析显示,LIME最优基因集富集与PD病理密切相关的生物学过程。非神经元细胞类型中显著富集热休克和未折叠蛋白反应相关基因,与α-突触核蛋白聚集的已知病理一致。小胶质细胞、少突胶质细胞和少突胶质前体细胞富集抗原呈递相关基因,星形胶质细胞独特显示铜离子失调。神经元基因集富集聚集自噬相关基因,DaNeurons基因集则富集提示突触功能障碍的术语。
通过三步优先策略,研究人员从LIME最优基因集中提名66个独特基因进行深入分析。遗传学验证发现九个基因在对应细胞类型中具有显著顺式表达数量性状位点(cis-eQTL),其中TMEM163与PD全基因组关联研究(GWAS)变异共定位。LIME还成功识别五个已知PD GWAS基因(RIMS1、TMEM163、BAG3、SIPA1L2、PAM),验证了其提名候选基因的有效性。
特别值得关注的是GPC6,该基因在DaNeurons的LIME特征重要性排名第99.5百分位,在死后中脑组织和iPSC来源的成熟DaNeurons中均显示表达上调。罕见变异负荷分析发现,PD患者在三独立队列中显著富集GPC6有害错义变异(联合分析P=1.49e-2, OR=3.40)。作为硫酸乙酰肝素蛋白聚糖家族成员,GPC6已知介导α-突触核蛋白预制纤维细胞内积累,与PD病理机制直接相关。
主要技术方法包括:四个死后中脑snRNAseq数据集(Kamath等、Wang等、Smajic等、Martirosyan等)和iPSC来源DaNeurons的scRNAseq数据预处理与质量控制;Seurat工具进行细胞类型注释;Scanpy和scikit-learn实现神经网络等四种机器学习分类器;高变基因等四种特征选择方法;LIME解释分类决策;跨数据集差异表达分析(MAST、Wilcoxon、DESeq2);遗传学分析(cis-eQTL、GWAS、基因负荷分析)。
通过系统评估16种模型组合,研究发现PCA特征选择结合NN分类器在区分PD与健康细胞方面表现最优。在七个黑质细胞类型中,该组合平均平衡准确率达0.984,显著优于其他组合。尽管PCA和NMF特征选择略优于HVG,但为保障结果生物可解释性,最终选择HVG-NN组合进行后续分析,平衡了预测性能与特征可解释性。
1.00 were incrementally eliminated based on their Z-score percentile rank until only the most important features remained. The same permutation tests were performed with an equal number of randomly selected genes as a benchmark. The dashed LIME indicates the optimal threshold: the number of input genes that maximized the discrepancy in balanced accuracy between using LIME-identified genes and random genes,across both Kamath et al.(top) and Wang et al.(bottom).C Bar plots showing the median NN accuracy using a leave-one-subject-out approach with LIME-identified genes or an equal number of randomly selected genes. Error bars represent the mean absolute deviation of the median accuracy across ten permutations for each subject. D Bar plots showing the dataset- and cell type specific-NN balanced accu-racy when using the LIME-identified genes or an equal number of randomly selected genes. Error bars represent the standard deviation of the balanced accuracy across ten permutations. Wilcoxon rank-sum tests were used to compare model perfor-mance when using the LIME-identified genes versus randomly selected genes; a distinct set of random genes were used for each permutation.P<0.05;P<0.01;P<0.001.DaNeurons dopaminergic neurons,NS not significant, oligo oligo-dendrocytes, OPC oligodendrocyte precursor cells.'>
应用LIME解码NN分类器黑箱,发现跨数据集一致的重要基因标志物。通过计算两个探索数据集间LIME特征重要性Z分数的Pearson相关性,观察到各细胞类型内中等强度相关性,表明关键基因子集在数据集间具有一致性。与标准DGE方法相比,NN-LIME识别跨数据集基因的比例显著更高(10.25% vs 最高4.44%),证明其在识别可推广疾病标志物方面的优势。
基因集富集分析显示,非神经元细胞类型中显著富集热休克和未折叠蛋白反应相关过程,与PD中α-突触核蛋白聚集的已知病理一致。小胶质细胞、少突胶质细胞和OPCs富集抗原呈递相关基因,星形胶质细胞独特显示铜离子失调。神经元基因集富集聚集自噬相关基因,DaNeurons基因集则富集提示突触功能障碍的术语,与该易损细胞类型在PD中丢失相关。
LIME识别特征的遗传学分析提示多个基因参与帕金森病
利用脑细胞类型特异性cis-eQTL数据,发现九个LIME识别基因在对应细胞类型中具有显著cis-eQTL。其中TMEM163与PD相关GWAS变异共定位,ARL17B与WNT3共定位。检查PD GWAS数据发现五个已知GWAS基因被LIME独特识别于特定细胞类型。神经退行性疾病知识门户(NDKP)分析显示,超过半数优先LIME基因列表与至少一种神经退行性疾病存在名义关联。
由于Wang等和Smajic等数据集包含DaNeurons数量不足,研究人员使用Martirosyan等第四数据集验证LIME识别基因集的迁移性。尽管数据集存在不平衡和受试者水平差异,平衡细胞计数后使用LIME基因的NN平均平衡准确率达0.786,显著高于随机基因模型(平均0.546)。在4349个输入NN分类器的HVG中,GPC6在区分PD与健康DaNeurons方面排名第99.5百分位。其在死后中脑组织和iPSC来源成熟DaNeurons中均显示表达上调,罕见变异负荷分析发现PD患者在三独立队列中显著富集GPC6有害错义变异。
该研究开发的机器学习框架在识别疾病细胞分子标志物方面具有显著优势。与传统统计方法相比,该框架直接优先考虑最小化高影响力基因集,通过实证优化平衡模型性能与输入规模,以无监督方式简化基因选择并增强生物可解释性。更重要的是,该框架促进跨数据集分析并直接评估标志物迁移性,缓解了小样本量的限制,有助于解决PD等复杂疾病的异质性。
研究关键发现是识别了细胞类型特异性LIME最优基因集,这些基因集在跨数据集中准确分类PD细胞。值得注意的是,可迁移分子标志物与可推广模型之间存在重要区别。虽然可推广模型对于临床诊断应用至关重要,但对通常伴随详细临床元数据的死后样本价值有限。本研究发现的可迁移性表明这些基因捕获了跨数据集可复制的读数,这对确立其与PD相关性至关重要。
LIME最优基因集的富集分析揭示了PD中已充分确立的生物学过程富集,确认了其在计算机分类之外的生物学相关性。热休克和未折叠蛋白反应相关基因在非神经元细胞类型中显著富集,反映了PD中α-突触核蛋白聚集的积累。虽然通路水平分析生成关于神经退行病理生理学的假设,但基因水平方法对识别疾病驱动因素至关重要。
有趣的是,几个已知导致独特单基因神经疾病的基因(DAB1、GRID2、FTL)在分类PD细胞中具有影响力,加强了神经疾病间共享机制的新兴证据。LIME还恢复了已知PD GWAS基因(RIMS1、TMEM163、BAG3、SIPA1L2、PAM),验证了其提名候选基因的效用。这些基因被LIME独特识别于特定细胞类型,提示PD相关基因可能通过细胞类型特异性机制发挥作用。
在已确立的遗传驱动因素之外,研究还提名了十个由LIME识别的候选基因,这些基因在PD参与方面表现出不同程度的遗传支持,值得进一步研究。ARL17B涉及蛋白质运输和囊泡介导转运,在星形胶质细胞、小胶质细胞和少突胶质细胞中被LIME识别,在NDKP队列中显示与PD和AD的显著常见变异关联。其表达还与这些相同细胞类型中WNT3的PD相关变异共定位。
LIME识别的最引人注目的新基因是GPC6,这是一种糖基磷脂酰肌醇锚定硫酸乙酰肝素蛋白聚糖,独特检测于DaNeurons中。GPC6在死后中脑组织来源的DaNeurons和iPSC来源的成熟DaNeurons模型中均上调,提示其在晚期疾病跨PD亚型中的共享致病作用。值得注意的是,GPC6仅在散发性PD的未成熟iPSC来源DaNeurons中显著上调,提示在多基因疾病中的早期潜在贡献作用。这与遗传病例形成对比,后者仅在成熟DaNeurons中观察到GPC6表达升高,暗示其可能是GBA、SNCA和LRRK2致病变异的下游后果。
硫酸乙酰肝素蛋白聚糖已知介导α-突触核蛋白纤维细胞内积累和传播,提示其在突触核蛋白病疾病进展中的作用。一种假设是DaNeurons响应GPC6功能丧失或功能障碍,上调相关蛋白聚糖(包括通过反馈机制上调GPC6本身)以增强α-突触核蛋白纤维摄取。支持这一观点的是,GPC6已被识别为增加神经元表达的cis-eQTL。动物模型研究还表明,糖基磷脂酰肌醇锚定蛋白聚糖对突触功能至关重要,磷酸化α-突触核蛋白阳性神经元在PD模型中显示GPC6表达升高。因此,异常GPC6可能贡献于突触功能障碍和DaNeurons退化。
研究主要局限在于依赖死后组织,这些组织捕获的是晚期疾病快照,无法提供疾病发生或进展的见解。虽然研究人员检查了LIME识别基因在iPSC来源DaNeurons成熟轴上的表达以推断其与早期PD的相关性,但更复杂的扰动模型对于验证和进一步研究其在疾病进展中的作用至关重要。另一局限是分析基于scRNAseq数据和统计遗传学方法优先考虑顶级候选基因,强调需要通过正交证据线进行功能验证以支持其PD参与。
该识别疾病分子标志物的框架预计可广泛应用于各种疾病。虽然研究人员使用还原方法优先考虑生物学相关基因,但LIME输出保持灵活和可定制。在这项概念验证研究中,重点放在HVG上,但这本质上将发现限制在基因子集内。可解释降维技术可以缓解这一局限,但需要在发现能力和分类器噪声间谨慎平衡。总体而言,该机器学习框架为解决多基因疾病(如PD)复杂遗传结构提供了有前景的机会。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号