基于机器学习的外泌体相关基因谱在骨关节炎精准诊疗中的应用
《Scientific Reports》:Application of machine learning-based exosome-related gene profiles in precision diagnosis and treatment of osteoarthritis
【字体:
大
中
小
】
时间:2025年12月22日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对骨关节炎(OA)复杂的发病机制,整合了多组学数据与机器学习算法,系统性地筛选并验证了10个核心外泌体相关基因(ERGs)。研究揭示了这些基因在免疫代谢调控中的关键作用,构建了高精度的诊断模型,并首次基于ERGs对OA进行分子分型,为OA的早期诊断和精准治疗提供了新的生物标志物和理论依据。
骨关节炎(OA)是一种常见的退行性关节疾病,全球有超过5亿人受其困扰。其发病机制复杂,涉及炎症、代谢紊乱和细胞间通讯异常。尽管外泌体作为细胞间通讯的关键介质,在OA中的作用却鲜为人知。为了填补这一空白,由Chuanfei You、Furen Dai、Bingzhu Dai、Weijun Wu、Le Fang、Weimin Jia、Xu Han、Zhi Su和Jian Li*组成的研究团队,在《Scientific Reports》上发表了一项研究,他们整合了生物信息学与机器学习技术,旨在系统性地识别与OA相关的核心外泌体相关基因(ERGs),并探索其在疾病诊断和分子分型中的潜在价值。
为了回答这些问题,研究人员开展了一项多步骤的研究。他们首先从GEO数据库获取了多个OA相关基因表达数据集,并利用ComBat算法进行批次效应校正,构建了一个包含OA患者和健康对照的整合队列。随后,他们通过差异表达分析(limma)和加权基因共表达网络分析(WGCNA)筛选出与OA相关的差异表达基因(DEGs),并与ExoCarta和Vesiclepedia数据库中的外泌体相关基因(ERGs)取交集,获得了候选基因集。为了进一步筛选出核心基因,研究团队整合了三种机器学习算法:LASSO回归、随机森林(Random Forest)和XGBoost。基于筛选出的核心基因,他们构建了多种机器学习诊断模型,并利用SHAP分析来解释模型并评估特征重要性。此外,研究还进行了基因集变异分析(GSVA)、免疫浸润分析(CIBERSORT)和基于核心ERGs的分子分型(ConsensusClusterPlus)。最后,通过RT-qPCR在临床样本中对核心ERGs的表达进行了验证。
研究人员整合了四个GEO数据集,并成功校正了批次效应。通过差异表达分析,他们鉴定出231个显著差异表达基因(DEGs),这些基因在炎症、免疫细胞迁移和细胞外基质(ECM)重塑等OA相关通路中显著富集,揭示了OA进展中炎症介导的免疫细胞浸润和ECM代谢紊乱是关键的驱动因素。
通过加权基因共表达网络分析(WGCNA),研究团队构建了基因共表达网络,并发现MEgrey模块与OA表型呈显著正相关。将WGCNA模块基因、DEGs和外泌体相关基因集进行整合分析,最终获得了79个重叠基因,这些基因被认为是OA研究中的核心候选分子。
研究整合了LASSO回归、随机森林和XGBoost三种机器学习方法,对差异表达基因进行了系统性的评估和排序。通过取交集分析,最终确定了10个候选核心基因:EPB41L2、ISLR、HLA-DRB1、HLA-DRA、PGLYRP1、PTEN、TKT、CTNNB1、THSD4和ATP9A。这些基因在OA组织和对照组织中表现出显著的差异表达,并且在外部验证队列中也呈现出一致的表达模式。基因集变异分析(GSVA)显示,这些基因的表达谱显著调控了多个OA相关的KEGG通路,表明它们通过调节代谢紊乱、炎症反应和细胞修复机制来影响OA的发生和进展。
研究构建了多种机器学习算法模型,包括随机森林、梯度提升树(XGBoost)、支持向量机(SVM)、神经网络(NNET)和朴素贝叶斯。在训练集、验证集和外部独立验证集中,随机森林模型均表现出卓越的性能,其AUC值分别达到了0.991、1.0和0.935。决策曲线分析(DCA)表明,这些模型在广泛的阈值范围内提供了显著的临床净获益,混淆矩阵分析也证实了模型具有稳健的分类稳定性。
通过SHAP分析,研究人员阐明了特征在机器学习模型中的重要性及其对预测结果的影响。结果显示,CTNNB1、PGLYRP1和THSD4是影响模型预测的最关键特征。具体而言,CTNNB1和EPB41L2的高表达水平与正向预测贡献相关,而低表达水平则表现出中性或负向效应。
研究构建了一个基于关键基因的多基因风险评分模型。该模型在风险分层中表现出色,校准曲线显示预测风险与观察风险之间具有很强的一致性。决策曲线分析(DCA)表明,在1%至50%的阈值概率范围内,该模型相较于全基因模型或无模型策略,能提供显著更高的净获益,显示出其强大的临床适用性。
免疫细胞组成分析揭示了OA患者与健康对照之间免疫微环境的显著差异。研究发现,OA患者中促炎性M1巨噬细胞显著增加,而抗炎性M2巨噬细胞则无显著差异。相关性分析显示,关键基因的表达与免疫细胞浸润存在强关联,例如HLA-DRB1的表达与M1巨噬细胞呈强正相关,而CTNNB1的表达与M2巨噬细胞呈负相关,这揭示了这些基因在免疫调节中的复杂作用。
基于核心外泌体相关基因(ERGs)的表达谱,研究人员通过无监督聚类分析将OA样本分为两个亚组。差异基因表达分析表明,关键基因在亚组间存在显著差异。免疫细胞浸润分析显示,虽然大多数免疫细胞亚型在亚组间无显著差异,但M1巨噬细胞的显著变异凸显了其在宿主免疫反应和疾病进展中的关键作用。
为了验证10个核心外泌体相关基因(ERGs)的表达,研究人员对临床样本进行了实时荧光定量PCR(RT-qPCR)验证。结果显示,大多数基因在OA患者中表现出显著的表达变化。具体而言,EPB41L2、ISLR、HLA相关基因和THSD4表达上调,而PGLYRP1、PTEN和CTNNB1表达下调,这进一步证实了这些基因作为OA诊断生物标志物或治疗靶点的潜力。
该研究开创性地将外泌体相关基因(ERG)表达谱与先进的机器学习方法相结合,为骨关节炎(OA)的诊断和分子分型提出了创新策略,同时阐明了外泌体及其核心基因在免疫调节和代谢稳态中的关键作用。研究成功鉴定并验证了10个核心ERGs,这些基因不仅与OA的免疫代谢调控密切相关,还构建了高精度的诊断模型。更重要的是,研究首次基于ERGs对OA进行了分子分型,揭示了疾病的内在异质性。这些发现为OA的早期诊断、新型生物标志物的开发以及靶向治疗干预奠定了坚实的基础,极大地增进了我们对OA发病机制的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号