编辑推荐:
非酒精性脂肪性肝炎(NASH)严重威胁健康,但诊断困难。研究人员整合多队列数据,用 12 种机器学习算法研究。结果发现 4 个关键基因,构建的随机森林(RF)模型诊断准确率高。这为 NASH 诊断和治疗提供新方向。
在当今社会,随着人们生活方式的改变和肥胖率的上升,非酒精性脂肪性肝病(NAFLD)的发病率也在不断攀升。其中,非酒精性脂肪性肝炎(NASH)作为 NAFLD 的严重阶段,不仅会引发肝脏炎症、纤维化,甚至可能发展为肝硬化和肝癌,严重威胁着人们的健康。然而,目前 NASH 的诊断主要依赖肝脏活检,这种方法不仅具有侵入性,还存在采样误差和观察者间可靠性不一致等问题,导致许多潜在患者无法及时确诊。此外,由于对 NASH 的发病机制尚未完全了解,也缺乏有效的治疗方法。因此,寻找可靠的非侵入性生物标志物和开发针对性的治疗策略迫在眉睫。
为了解决这些难题,安徽医科大学第一附属医院的研究人员开展了一项极具意义的研究。他们通过整合多个 NASH 队列的数据,并运用 12 种机器学习算法,深入探究 NASH 与细胞死亡相关基因之间的联系。研究最终发现了 4 个关键基因(IGF1、TREM2、MET、MMP9),并且利用随机森林(RF)算法构建的二元分类模型在多个队列中展现出了高诊断准确率。这一研究成果为 NASH 的非侵入性诊断和靶向治疗提供了重要的理论依据和潜在的治疗靶点,在《Lipids in Health and Disease》上发表,对推动 NASH 的研究和临床治疗具有重要意义。
在研究方法上,研究人员主要进行了以下操作:首先,从基因表达综合数据库(Gene Expression Omnibus,GEO)中检索包含 NASH 样本的数据集,经严格筛选和处理后,去除批次效应,并将数据随机划分为训练集和测试集,部分数据集用作外部验证集 。接着,筛选差异表达基因(DEGs),并与细胞死亡相关基因进行交叉分析以确定关键基因。随后,运用 12 种机器学习算法筛选 DEGs 并构建 NASH 二元分类模型,通过计算受试者工作特征曲线下面积(AUC)和一致性指数(C-index)评估模型性能 。此外,还对关键基因进行了一系列综合分析,并通过实验对关键基因表达进行验证。
下面来看具体的研究结果:
- 确定与 NASH 相关的细胞死亡基因:经过数据处理和分析,研究人员共鉴定出 21 个与 NASH 相关的细胞死亡基因,这些基因涉及 “凋亡信号通路”“铁死亡通路”“脂质代谢通路” 以及 “自噬通路” 等,与 NAFLD 密切相关1。
- 构建二元分类模型:利用 12 种机器学习算法构建预测模型,RF 算法表现最佳,确定了 5 个关键基因(IGF1、TREM2、MET、NCOA4、MMP9)。该模型在多个队列中展现出较高的诊断准确性,其 AUC 值在不同队列中表现出色,且这 5 个基因在各队列中的表达模式具有一致性2。
- 关键基因在免疫细胞中的富集分析:对关键基因在免疫细胞中的富集情况进行分析发现,NCOA4 在与肝纤维化相关的成纤维细胞和肝星状细胞中显著富集;TREM2 在炎症巨噬细胞中富集;MMP9 在促炎性中性粒细胞中富集;IGF1 在肝星状细胞和巨噬细胞中富集34。
- 关键基因与 NAFLD 临床表型的关联:对 4 个关键基因(IGF1、TREM2、MET、MMP9)的进一步分析表明,它们的表达水平与 NASH 的临床指标存在显著关联。例如,TREM2 的表达与非酒精性脂肪性肝病活动评分(NAS)呈正相关,MET 的表达与体重指数(BMI)和 NAS 呈负相关等5。
- 关键基因对免疫、炎症、代谢和纤维化的影响:研究发现,关键基因的表达影响免疫细胞浸润、炎症反应、代谢途径和肝纤维化进程。如 IGF1 表达降低与多种代谢途径抑制相关,TREM2 上调与炎症和脂质合成相关途径激活有关等6。
- NASH 患者的聚类分析:基于 4 个关键基因的表达谱,运用非负矩阵分解(NMF)聚类算法将 NASH 患者分为两个分子亚型。两个亚型在临床表型、炎症基因表达、脂质代谢和纤维化相关基因表达以及免疫细胞含量等方面存在显著差异7。
- 关键基因表达的实验验证:通过组织学检查和分子生物学实验,在 mRNA 和蛋白质水平验证了关键基因在 NASH 中的表达变化。结果显示,IGF1 和 MET 在 NASH 中表达下调,MMP9 和 TREM2 表达上调8。
在研究结论与讨论部分,该研究成功利用机器学习算法开发了 NASH 的非侵入性诊断模型,其中 RF 算法诊断准确性最高。研究确定的 4 个关键基因(TREM2、IGF1、MET、MMP9)与 NASH 的发病机制密切相关,参与炎症浸润、脂质合成、脂肪酸氧化和肝纤维化等过程,并且其表达谱能够对 NASH 患者进行疾病严重程度分层。这一研究为 NASH 的早期诊断和治疗干预提供了新的潜在生物标志物和治疗靶点,为开发新的治疗策略奠定了基础。然而,研究也存在一定的局限性,目前这些细胞死亡相关基因参与 NASH 发病机制的精确分子机制尚不清楚,未来还需要进一步研究这些基因与肝脏脂质代谢、炎症途径和纤维化信号之间的动态相互作用,以确定更有效的治疗靶点 。总体而言,这项研究成果为 NASH 的研究和治疗开辟了新的方向,具有重要的科学价值和临床意义。