编辑推荐:
代谢功能障碍相关脂肪性肝病(MASLD)危害大且早期诊断困难。研究人员基于美国国家健康与营养检查调查(NHANES)数据,运用机器学习(ML)方法构建预测模型。结果显示随机森林(RF)模型表现最佳,该研究对 MASLD 的防治有重要意义。
在当今社会,肝脏健康问题日益受到人们的关注,其中代谢功能障碍相关脂肪性肝病(MASLD),这个曾经被称为非酒精性脂肪肝病(NAFLD)的疾病,正逐渐成为一个全球性的健康难题。它如同隐匿在人群中的 “健康杀手”,悄无声息地影响着超过 30% 的世界人口。在过去三十年里,随着全球肥胖、2 型糖尿病和代谢综合征发病率的不断攀升,MASLD 的负担也在急剧加重,已然成为慢性肝病的最常见病因。更令人担忧的是,高达三分之一的 MASLD 患者会发展为进行性脂肪性肝炎和肝纤维化,进而引发肝硬化、肝细胞癌等严重肝脏疾病,甚至导致死亡。而且,MASLD 还与心血管疾病、慢性肾脏疾病、肝外恶性肿瘤等肝外疾病的风险增加密切相关,给社会和经济带来了沉重的负担。
然而,目前公众对 MASLD 的认知程度却很低,由于其在早期通常没有明显症状,在临床实践中很难做到早期发现。同时,针对 MASLD 也缺乏特效的药物治疗,有效的预防保健成为降低其发病率和并发症的主要策略。因此,早期准确识别 MASLD 高风险患者就显得尤为关键,这不仅有助于预防疾病的发生,还可能改善患者的预后。但现有的 MASLD 诊断标准主要依赖肝脏脂肪变性和心脏代谢紊乱的检测,这些检测手段要么不能常规进行,要么具有侵入性,无法广泛应用于临床诊断和人群筛查。在这样的背景下,开发相对可行的 MASLD 风险预测工具迫在眉睫。
为了解决这一难题,澳大利亚国立大学以及贵州省人民医院等机构的研究人员开展了一项极具意义的研究。他们的研究成果发表在《Scientific Reports》上,为 MASLD 的预测和防治带来了新的希望。
研究人员利用美国国家健康与营养检查调查(NHANES)2017 - 2020 年的数据,开展了一项全国性横断面研究。该研究严格遵循相关的研究规范和伦理原则,所有参与者均提供了书面知情同意。研究人员从大量数据中筛选出 50 个易于获取的医学特征,运用 6 种机器学习(ML)算法构建预测模型,包括逻辑回归(LR)、决策树(DT)、K 近邻(KNN)、随机森林(RF)、支持向量机(SVM)和极端梯度提升(XGboost)。为了优化模型的超参数,研究人员采用了网格搜索结合 10 折交叉验证的方法,并通过设置特定的随机种子确保研究的可重复性。同时,运用递归特征消除(RFE)方法选择最优特征子集,利用 Shapley Additive exPlanations(SHAP)方法对模型进行全局和局部解释。
患者特征分析
研究人员最初纳入了 24814 名来自 NHANES 的参与者,经过排除不符合条件的个体后,最终有 13436 名参与者纳入分析。这些参与者被随机分为训练队列(9045 人)、内部验证队列(2688 人)和外部验证队列(1343 人)。在训练队列的 9045 名成年人中,有 3237 人(35.8%)患有 MASLD,这一比例在内部和外部验证队列中也较为相似,分别为 34.7% 和 34.4%。通过对非 MASLD 和 MASLD 患者的临床特征进行比较,发现两者在年龄、性别、体重指数(BMI)、吸烟、饮酒、多种合并症以及多项实验室指标等方面均存在显著差异。
模型开发与性能比较
研究人员利用收集的数据生成了 6 种 ML 模型来预测 MASLD。通过对多个评估指标的综合分析,发现 RF 模型在判别能力方面表现最佳。在内部验证队列中,RF 模型的受试者工作特征曲线下面积(AUC)达到 0.928,准确率为 0.850,灵敏度为 0.772,特异性为 0.892,阳性预测值(PPV)为 0.789,阴性预测值(NPV)为 0.882;在外部验证队列中,AUC 也高达 0.923。与其他 5 种模型相比,RF 模型的 AUC 具有显著优势(所有 P < 0.05),因此被选作最终模型进行进一步分析。
特征选择与最终模型确定
运用 RF - RFE 算法,研究人员对变量进行筛选,最终确定了包含肥胖、腰高比、年龄、甘油三酯、空腹血糖、饮酒、吸烟、C 反应蛋白、血清铁和尿酸这 10 个特征的 RF 模型。该 10 特征模型在预测 MASLD 时,AUC 为 0.928,灵敏度为 0.863,特异性为 0.830,PPV 为 0.727,NPV 为 0.920,准确率为 0.842。其校准曲线和决策曲线也表现良好,表明该模型具有优秀的判别和校准性能。
最终模型的外部验证
对最终模型进行外部验证发现,其 AUC 为 0.918,与内部验证队列的结果相似(ΔAUC = 0.010,P = 0.241),精准召回曲线下面积为 0.863。校准曲线和决策曲线也显示该模型在内部和外部验证中均表现出色,说明模型具有较好的稳定性和可靠性。
最终模型与传统指标的比较
研究人员进一步将最终模型与传统的肝脂肪变性指标,如 Framingham steatosis index(FSI)、fatty liver index(FLI)和 hepatic steatosis index(HSI)进行比较。结果表明,在内部验证中,这些传统指标的预测性能均不如最终模型,最终模型在 ROC 曲线和 P - R 曲线下的面积均显著高于它们,说明结合该研究模型中的临床变量在预测 MASLD 方面优于以往的标记物。
模型解释
研究人员运用 SHAP 方法对最终模型进行解释。通过计算每个变量对预测的贡献,从特征层面给出模型的全局解释,描述模型的整体功能;同时通过输入个体数据,给出局部解释,分析具体个体的预测是如何做出的。结果显示,年龄、肥胖、甘油三酯、C 反应蛋白、葡萄糖、铁、腰高比和尿酸等特征对预测 MASLD 具有重要贡献,而吸烟和饮酒在某些情况下对预测的影响相对较小。
综上所述,研究人员成功开发并验证了一种基于随机森林算法的可解释 ML 模型,该模型能够准确预测成人 MASLD。模型仅包含 10 个易于获取的特征,却具有出色的判别和校准性能,为临床早期识别 MASLD 高风险患者提供了有力工具,有望改善 MASLD 的管理和防治。然而,该研究也存在一定的局限性,如数据仅来源于 NHANES 数据库、模型基于美国人群构建,其对其他人群的适用性尚不清楚、样本量计算缺乏标准以及模型可能需要不断更新等。未来需要进一步开展前瞻性、随机对照研究,以验证该模型的有效性,并不断完善对 MASLD 患者的治疗和管理策略,为全球 MASLD 的防治工作做出更大贡献。