基于机器学习构建中国老年人群代谢相关脂肪性肝病风险预测模型:可解释性模型的建立与评估
《Frontiers in Medicine》:Predicting the risk of metabolic-associated fatty liver disease in the elderly population in China: construction and evaluation of interpretable machine learning models
【字体:
大
中
小
】
时间:2025年10月21日
来源:Frontiers in Medicine 3.0
编辑推荐:
本研究通过比较10种机器学习算法,利用常规体检数据构建了老年代谢相关脂肪性肝病(MAFLD)风险预测模型。随机森林(RF)模型表现最优(AUC=0.892),SHAP方法识别TyG-BMI指数、身高和白蛋白(ALB)为关键预测因子。该可解释性模型为老年MAFLD早期筛查提供了高效工具。
代谢相关脂肪性肝病(MAFLD)是一种与代谢功能障碍密切相关的疾病,其危险因素包括肥胖、2型糖尿病、胰岛素抵抗和代谢综合征。随着全球人口老龄化进程加速,老年人群中MAFLD的患病率持续上升。MAFLD不仅损害肝功能,还与多种肝外并发症相关,显著增加致命性和非致命性心血管事件风险,并易导致慢性肾脏疾病和2型糖尿病。此外,MAFLD可进展为非酒精性脂肪性肝炎(NASH)、肝纤维化、肝硬化甚至肝细胞癌(HCC),严重威胁患者健康与生存。
腹部超声是诊断肝脂肪变的常用方法,对中重度脂肪肝具有较高准确性,但对轻度病例敏感性有限且依赖操作者经验。肝活检虽是诊断MAFLD的金标准,但因有创性、高成本和低可行性,尤其在合并多种疾病的老年人群中临床应用受限。许多MAFLD患者早期无症状,使得及时准确诊断面临挑战。
机器学习(ML)已成为医学领域强大的预测工具。与传统统计模型不同,ML不依赖预先假设的数据结构,能分析高维数据并捕捉复杂非线性关系。SHapley Additive exPlanations(SHAP)方法通过结合最优信用分配与局部可解释性,增强了ML模型的可解释性。本研究旨在利用SHAP开发和验证机器学习模型,以预测老年人群MAFLD风险,辅助临床医生识别高危个体并支持早期干预。
这项横断面研究于2024年1月至12月在西南医科大学附属医院健康管理中心进行。研究对象为接受年度健康检查(包括腹部超声)的老年人。纳入标准包括:年龄≥60岁、完成腹部超声检查、临床资料完整。排除标准包括:年龄<60岁、有肝脏疾病或肝脏手术史(如原发性肝细胞癌、巨大肝囊肿或肝硬化)、临床资料不完整。初步评估3175例拥有完整腹部超声数据的个体,排除383例数据缺失和157例重大肝脏疾病后,最终纳入2635名参与者。其中男性1693名(64.25%),女性942名(35.75%),平均年龄67.79±7.07岁。878名(33.32%)被诊断为MAFLD,1757名(66.68%)为非MAFLD。MAFLD诊断基于超声显示的肝脂肪变。所有操作符合相关伦理规范和指南。由于研究为回顾性,免除书面知情同意要求。研究获西南医科大学附属医院伦理委员会批准(批准号KY2025195)。
从医院电子医疗检查系统提取人口统计学、人体测量学、病史和实验室数据。收集变量包括:人口统计学数据(年龄、性别);人体测量指标(体重指数(BMI)、收缩压(SBP)、舒张压(DBP)、腰围(WC)、臀围(HC)、腰臀比(WHR)、身高、体重);病史(糖尿病史、高血压史);实验室检查:γ-谷氨酰转肽酶(GGT)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、AST/ALT比值、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、总胆固醇(TC)、总胆红素(TBIL)、直接胆红素(DBIL)、间接胆红素(IBIL)、总蛋白(TP)、球蛋白(GLO)、甘油三酯(TG)、白蛋白(ALB)、白蛋白/球蛋白比值(A/G)、空腹血糖(FPG)。此外,计算甘油三酯-葡萄糖指数(TyG)及其相关参数:TyG指数=ln[TG(mg/dL)×FPG(mg/dL)/2];TyG-BMI=TyG×BMI;TyG-WC=TyG×WC;TyG-WHR=TyG×WHR。
所有参与者均由三级医疗中心经验丰富的放射科医生进行腹部超声检查。肝脂肪变诊断主要基于以下声像图特征:肝回声增强("明亮肝")和/或肝内结构显示不清。MAFLD诊断基于超声显示肝脂肪变,并满足以下至少一项标准:超重或肥胖(亚洲人群BMI≥23 kg/m2);2型糖尿病;瘦或正常体重(亚洲人群BMI<23 kg/m2)且存在两项或以上代谢风险异常:(1)男性腰围≥90 cm或女性≥80 cm;(2)血压≥130/85 mmHg或正接受降压治疗;(3)甘油三酯≥1.70 mmol/L或正接受降脂治疗;(4)男性HDL-C<1.0 mmol/L或女性<1.3 mmol/L,或正接受特定治疗;(5)糖尿病前期(FPG 5.6–6.9 mmol/L或HbA1c 5.7–6.4%);(6)稳态模型评估的胰岛素抵抗指数(HOMA-IR)≥2.5;(7)高敏C反应蛋白(hs-CRP)≥2 mg/L。
所有统计分析使用R软件(版本4.4.2)进行,双侧p值<0.05认为有统计学意义。连续变量如符合正态分布以均数±标准差表示,否则以中位数(四分位距)表示。组间比较使用t检验(正态分布)或Mann-Whitney U检验(非正态分布)。分类变量以频数(百分比)表示,使用卡方检验或Fisher精确检验比较。检查所有变量的缺失率,缺失率超过10%的变量被排除分析,其余变量的缺失数据使用链式方程多重插补(MICE)法填补。
使用分层随机抽样将数据集分为训练集和验证集。所有参与者按MAFLD状态分层后,随机分配至训练集(70%)或验证集(30%)。训练集1844人,验证集791人。两组基线资料比较无统计学差异(p>0.05)。变量筛选首先在训练集使用最小绝对收缩和选择算子(LASSO)回归,通过glmnet包实现,结合L1正则化惩罚模型复杂度,将部分系数收缩至零以实现特征选择。使用合成少数类过采样技术(SMOTE)算法处理类别不平衡问题。随后通过单因素和多因素logistic回归进一步筛选变量,最终确定9个独立预测因子。计算各变量的方差膨胀因子(VIF),所有VIF值均小于5,表明无显著多重共线性。计算TyG-BMI与BMI的Pearson相关系数为0.842,根据相关文献,当相关系数超过0.85时需要排除与结局关联较弱的变量,经综合考虑本研究保留TyG-BMI和BMI。
基于方法多样性、预测性能和临床可解释性综合考虑,使用10种机器学习算法构建预测模型:逻辑回归(LR)、支持向量机(SVM)、梯度提升机(GBM)、神经网络(NN)、随机森林(RF)、极端梯度提升(XGBoost)、k近邻(KNN)、自适应提升(AdaBoost)、轻量梯度提升机(LightGBM)和类别提升(CatBoost)。使用10折交叉验证确保模型稳健性,网格搜索优化各算法超参数。
超参数调优期间,选择受试者工作特征曲线下面积(AUC)最高的模型作为最优模型。使用训练集开发模型,内部验证使用最优模型。模型性能评估指标包括AUC、敏感性、特异性、F1分数、准确率、精确率和Brier分数。绘制校准曲线和决策曲线分析(DCA)评估模型校准度和临床效用。为增强模型可解释性,使用SHAP生成摘要图、瀑布图、力图和特征重要性排序图,定量说明各特征对模型预测的贡献,提高透明度并提供变量如何影响模型输出的见解。
所有老年人随机分为训练集(n=1844, 70%)和验证集(n=791, 30%)。除臀围变量外,两组基线特征无统计学差异(p>0.05),表明协变量分布均衡。训练集中619例诊断为MAFLD,患病率33.57%。MAFLD组与非MAFLD组基线特征存在显著差异。MAFLD老年人表现出明显异常的代谢指标,包括血糖、血脂、BMI和肝功能标志物水平升高。此外,MAFLD组高血压和糖尿病患病率显著高于非MAFLD组。
基于LASSO回归的交叉验证确定两个正则化参数(λ):λ.min(0.002995174)和λ.1se(0.01101739)。为平衡模型复杂度和预测精度,选择λ.1se(0.01101739)作为最优参数。训练集初步筛选13个预测因子:性别、糖尿病、AST/ALT、ALT、ALB、A/G、DBIL、HDL-C、TyG-BMI、WHR、BMI、SBP、身高。随后进行单因素和多因素logistic回归分析进一步精炼变量选择,最终确定9个独立预测因子:糖尿病、ALT、ALB、A/G、HDL-C、TyG-BMI、BMI、SBP、身高。所有变量VIF值均低于5,表明预测因子间无多重共线性。
本研究开发10个机器学习模型评估老年人MAFLD风险。10折交叉验证结合网格搜索获得9个机器学习算法(除LR外)的最优超参数。基于各算法最优超参数构建风险预测模型。首先使用AUC作为模型区分度的主要指标。验证集中各模型AUC值如下:LR(0.884)、SVM(0.887)、GBM(0.889)、NN(0.859)、RF(0.892)、XGBoost(0.876)、KNN(0.867)、Adaboost(0.822)、LightGBM(0.854)、CatBoost(0.889)。其中随机森林(RF)模型区分性能最佳。进一步评估模型性能包括准确率、敏感性、特异性、精确率、F1分数和Brier分数。RF模型获得最高F1分数(0.739)和敏感性(0.919),以及最低Brier分数(0.125),表明出色的预测能力和校准度。校准曲线和DCA显示RF模型具有良好校准度和临床适用性。综合考虑所有性能指标,RF模型表现最佳,是本研究最合适的预测模型。
为解释RF模型结果,使用SHAP值进行可视化。摘要(蜂群)图显示各特征SHAP值分布。Y轴按特征重要性排序,X轴表示特征对模型输出的影响大小和方向。分析确定9个MAFLD关键预测因子:TyG-BMI、身高、ALB、BMI、A/G、ALT、HDL-C、SBP、糖尿病。其中TyG-BMI、身高和ALB是模型预测的前三位贡献者。瀑布图和力图详细展示了个体患者的预测过程,揭示各特征SHAP值如何依次添加到基线值形成模型预测。特征重要性条形图按平均绝对SHAP值排序,清晰显示各变量对RF模型的相对贡献。
MAFLD全球患病率达38.77%,影响超过三分之一世界人口。系统综述和荟萃分析预测到2030年,中国约有3.1458亿人诊断为MAFLD。MAFLD已成为日益严重的公共卫生问题,带来显著社会经济负担。流行病学证据表明MAFLD患病率呈现明显年龄依赖性模式,老年人承担显著更高的风险因素负担。因此,本研究旨在开发机器学习模型实现老年MAFLD高危人群早期识别,降低医疗和社会经济成本。
本研究确定TyG-BMI、身高、白蛋白(ALB)、体重指数(BMI)、白蛋白/球蛋白比值(A/G)、丙氨酸氨基转移酶(ALT)、收缩压(SBP)和糖尿病是老年人MAFLD危险因素,而高密度脂蛋白胆固醇(HDL-C)是保护因素。SHAP可视化进一步突出TyG-BMI、身高和ALB为三个最关键独立预测因子。
TyG-BMI是近年广泛研究的代谢失调标志物,整合甘油三酯(TG)、空腹血糖(FPG)和BMI,全面反映胰岛素抵抗和代谢异常。研究表明TyG-BMI与MAFLD呈正相关,且在多种模型调整后仍显著。基于美国国家健康与营养调查(NHANES)数据的研究显示TyG-BMI与MAFLD患者全因死亡率显著相关,在不同人群中具有强预测价值。本研究结果与先前报告一致。
身高成为本研究MAFLD关键预测因子,可能与老年人脂肪分布差异相关。先前研究显示身高与脂肪分布和代谢功能障碍显著相关,身高较高者通常基础代谢率更高,脂肪分布模式更健康。白蛋白由肝脏合成,反映肝脏合成功能和储备能力。研究表明MAFLD患者ALB水平倾向较低,表明存在一定程度的肝损伤。ALB水平降低与MAFLD风险增加相关,可能与其抗炎和抗氧化特性有关。本研究结果证实了这些发现。
除这三个关键预测因子外,BMI、A/G、ALT、SBP和糖尿病也被确定为老年人MAFLD危险因素。研究已确立BMI与MAFLD风险显著相关,BMI是MAFLD发生的可靠预测指标。由于肝脏脂肪堆积和炎症,免疫激活导致球蛋白合成增加,引起A/G比值降低。这一变化反映肝脏合成功能和整体健康,间接指示MAFLD风险。前瞻性队列研究表明持续高正常ALT水平与MAFLD发生风险增加显著相关,强调ALT监测对早期识别高危个体的重要性。此外,大量研究报道MAFLD患者常伴有高血压和糖尿病,SBP≥130 mmHg和糖尿病与MAFLD风险显著正相关。
HDL-C促进胆固醇从外周组织转运至肝脏代谢和排泄。研究表明低HDL-C水平可能增加MAFLD患者肝纤维化和肝细胞癌风险,提示较高HDL-C水平可能对MAFLD发展具有保护作用,与本研究结果一致。
在开发的模型中,随机森林(RF)表现出 superior 预测准确性和高敏感性,成为预测老年人群MAFLD风险的最优模型。RF获得最高ROC曲线下面积(AUC),校准曲线紧贴理想线,决策曲线分析(DCA)显示在不同阈值概率下具有最大净收益。同时使用SHAP可视化增强模型可解释性,创建蜂群图、力图、瀑布图和重要性排序图进行视觉呈现。这些可视化突出这些因素如何相互作用并影响老年人MAFLD患病率。这种可解释性确保模型是临床医生和研究人员可信任的透明工具。
本研究存在若干局限性。首先,RF模型在训练集表现近乎完美,存在过拟合风险。尽管应用了10折交叉验证和正则化技术,仍需通过嵌套交叉验证、早停法、集成方法或更大数据集外部验证确保模型稳健性和泛化能力。其次,所有参与者均招募自西南医科大学附属医院,研究人群的代表性和区域适用性需要多中心、大规模临床数据进一步外部验证以评估结果普适性。第三,本研究为横断面研究,所有样本数据取自2024年该医院健康检查人群。单一年份数据可能存在时间和选择偏倚,无法反映疾病随时间的动态进展。未来研究应在更长随访期和多个时间点进行前瞻性验证,进一步确保模型稳健性。第四,本研究脂肪肝诊断基于腹部超声结果,通常提供较低级别证据相较于肝活检或磁共振成像(MRI)。此外,MAFLD诊断标准之一是血浆高敏C反应蛋白(hs-CRP)水平≥2 mg/L;然而该参数在检查人群中未常规测量。其他影响MAFLD风险的重要因素,如生活习惯和饮食模式,也未系统记录,可能影响预测准确性。未来研究应纳入更全面详细数据,进一步提升模型性能和可解释性。
老年人群MAFLD患病率上升引起广泛公众关注,凸显了针对该人群大规模早期筛查模型的必要性。本研究开发并比较了10种机器学习模型性能,确定随机森林模型为MAFLD最优预测器。此外,利用SHAP可视化阐明各风险因素与MAFLD间的相互作用。研究结果表明所提出的MAFLD筛查模型具有满意预测性能,为老年人MAFLD预防和早期检测提供了一种新颖、经济有效的方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号