基于机器学习的MASHRisk评分系统开发与验证:多队列研究揭示其在代谢相关脂肪性肝炎诊断和预后评估中的价值
《npj Digital Medicine》:Harnessing machine learning for the development, validation, and prognostic evaluation of MASHRisk score: insights from a multicohort study
【字体:
大
中
小
】
时间:2025年12月09日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对代谢相关脂肪性肝炎(MASH)无创诊断工具匮乏的临床难题,开发了基于常规临床生化指标的MASHRisk评分。研究团队运用十种机器学习算法,通过多队列验证(n=218/93/96/26,256)证实该评分诊断MASH的AUC达0.791-0.806,显著优于FIB-4、APRI等现有指标。在390,574人预后队列中,高风险组肝相关死亡率风险比(HR)达12.296。该工具为基层医疗提供了一种可靠的MASH早期筛查和风险分层策略。
在当代肝病领域,代谢相关脂肪性肝病(MASLD)已成为全球最常见的慢性肝病,而其中代谢相关脂肪性肝炎(MASH)更是导致肝纤维化、肝硬化和肝癌的关键进展阶段。令人担忧的是,MASH患者的肝相关死亡率比单纯脂肪肝患者高出十倍以上。然而,目前临床上诊断MASH的"金标准"——肝活检,却因其有创性、成本高、患者接受度低以及存在出血风险等局限性,难以在人群筛查和长期随访中广泛应用。
尽管近年来出现了一些无创诊断工具,如FIB-4、APRI等评分系统,但它们主要针对肝纤维化评估,对MASH的诊断效能有限。更复杂的检测方法如FAST评分和NIS4?虽性能较好,但需要瞬时弹性成像或特殊生物标志物检测,在基层医疗机构中难以普及。这一现状凸显了开发基于常规临床指标、适用于不同医疗场景的MASH无创诊断工具的迫切需求。
正是在这一背景下,发表于《npj Digital Medicine》的研究论文"利用机器学习开发、验证和预后评估MASHRisk评分:来自多队列研究的见解"提出了一种创新解决方案。该研究由Bicheng Ye、Yuming Teng等学者合作完成,旨在开发并验证一个基于机器学习的MASH风险评估工具——MASHRisk评分,该评分仅需常规临床和生化指标即可实现准确的MASH诊断和风险分层。
为开展这项研究,研究人员采用了多队列研究设计,包括来自中国医院的训练队列(218人)、验证队列(93人)和测试队列1(96人),以及来自英国生物银行(UK Biobank)的大规模测试队列2(26,256人)和预后队列(390,574人)。研究首先使用Boruta算法进行特征选择,然后比较了十种机器学习算法的性能,最终选择偏最小二乘(PLS)算法构建MASHRisk评分。通过受试者工作特征(ROC)曲线、校准曲线和决策曲线分析(DCA)评估模型性能,并使用SHAP(SHapley Additive exPlanations)框架解释模型。此外,还通过蛋白质组学分析和通路富集分析探讨了评分背后的生物学机制。
研究共纳入来自不同人群的多个队列,包括训练队列218人、验证队列93人、测试队列1的96人、测试队列2的26,256人以及预后队列的390,574人。参与者的平均年龄从31岁到57岁不等,男性比例在31%至71%之间。中国医院队列的MASH阳性率在44%至48%之间,而英国一般人群队列的MASH阳性率仅为4.4%。这种人群多样性有助于开发具有广泛适用性的MASH预测模型。
研究人员首先计算了训练队列中特征的相关性系数,发现天门冬氨酸氨基转移酶(AST)与丙氨酸氨基转移酶(ALT),以及低密度脂蛋白胆固醇(LDL-C)与总胆固醇的相关系数均超过0.7。通过最大化曲线下面积(AUC)的特征选择方法,最终确定了AST、LDL-C、性别、年龄、体重指数(BMI)、γ-谷氨酰转移酶(GGT)、白蛋白、总胆红素、尿酸、糖化血红蛋白(HbA1c)、甘油三酯(TG)和高密度脂蛋白胆固醇(HDL-C)作为候选特征。Boruta算法进一步筛选出年龄、BMI、AST、HbA1c和TG这五个最终建模特征。
研究团队随后使用十种机器学习算法开发模型,并在验证集上评估其性能。结果显示,基于PLS算法构建的模型在验证集中预测MASH的AUC最高,因此被选为MASHRisk评分。该评分在训练、验证、测试队列1和测试队列2中预测MASH的AUC值分别为0.791、0.793、0.806和0.796,表现出稳健的诊断性能。值得注意的是,MASH患者的MASHRisk评分显著高于非MASH患者。为促进该评分的广泛应用,研究人员还开发了一个免费在线计算工具。
多变量逻辑回归分析显示,在调整性别、年龄和BMI后,MASHRisk评分仍然是MASH的独立预测因子。通过ROC曲线分析,研究人员确定了0.457为最佳截断值。在不同队列中,该评分表现出不同的敏感性和特异性特征:训练队列为0.729和0.738,验证队列为0.689和0.833,测试队列1为0.605和0.906,测试队列2为0.779和0.689。特别是在代表一般人群的测试队列2中,MASHRisk评分的阴性预测值高达99.0%,表明其在排除MASH方面具有重要价值。
研究将MASHRisk评分与FIB-4、APRI、AAR和NFS等现有无创检验进行了全面比较。ROC曲线分析显示,在所有四个队列中,MASHRisk评分预测MASH的AUC均最高。校准曲线表明,MASHRisk评分的预测概率更接近实际概率,Brier分数最低。决策曲线分析进一步证实,MASHRisk评分比其他无创检验提供更大的临床净收益。这些结果一致表明,MASHRisk评分在MASH诊断方面优于现有的无创工具。
通过SHAP框架的解释分析发现,AST是MASHRisk评分中最重要的变量。研究人员还通过两个典型案例展示了该评分的可解释性:一名MASH患者具有高SHAP值和0.884的评分,而非MASH患者则具有低SHAP值和0.353的评分。这种可解释性有助于临床医生理解模型的决策过程,增强其实用性。
在预后队列中,参与者被分为低风险组(11,596人,3%)和高风险组(378,978人,97%)。分析显示,高风险组的肝相关死亡率、MASH事件、肝硬化事件和肝癌事件的风险均显著高于低风险组,风险比(HR)分别为12.296、12.829、8.863和9.278。时间依赖性ROC分析显示,该评分在预测这些结局方面具有长期的预测能力,3年、5年和10年的AUC值均表现良好。此外,高风险组的动脉粥样硬化性心血管疾病(ASCVD)和全因死亡率风险也显著升高。
为探索MASHRisk评分的生物学机制,研究人员进行了通路富集分析。过表达分析(ORA)和基因集富集分析(GSEA)均显示,高风险组在代谢和免疫相关通路上显著富集,如羧酸代谢过程、碳代谢和趋化因子信号通路。这一发现与MASH的已知病理生理学相符,因为代谢失调和慢性炎症是其发展的核心机制。
本研究开发的MASHRisk评分是一种基于常规生化检查的MASH预测工具,仅需五个参数(年龄、BMI、AST、HbA1c和TG)即可实现准确的MASH诊断。该评分在不同人群和多种临床场景下均表现出优异的性能,且优于现有的无创诊断工具。更重要的是,MASHRisk评分能够有效预测肝相关死亡、MASH进展、肝硬化、肝癌等长期临床结局,显示出重要的预后价值。
研究的创新之处在于将机器学习方法与常规临床指标相结合,开发出既具有高精度又便于临床推广的MASH诊断工具。相比于需要特殊检测的无创工具,MASHRisk评分仅基于常规检查项目,大大降低了临床应用的门槛,特别适合在资源有限的基层医疗机构使用。评分的在线计算工具进一步促进了其普及和应用。
然而,研究也存在一些局限性,如在测试队列2中使用质子密度脂肪分数(PDFF)作为MASH的替代标志物可能存在争议,以及尚未验证MASHRisk评分在纵向监测肝健康方面的潜力。未来的研究需要长期前瞻性随访来验证其在追踪疾病进展或治疗反应方面的准确性。
总体而言,MASHRisk评分是一个经过验证、用户友好、非侵入性的工具,适用于不同人群,并在各种队列中展现出稳健的预测能力。随着医疗系统向人群层面的慢性病管理转型,这一评分为MASH的早期检测和风险分层提供了可扩展的解决方案,有望在减轻MASH全球负担方面发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号