基于健康体检队列的机器学习生存模型预测非酒精性脂肪肝病风险及时间分布规律

【字体: 时间:2025年07月16日 来源:BMC Gastroenterology 2.5

编辑推荐:

  本研究针对非酒精性脂肪肝病(NAFLD)早期预测难题,开发了基于随机生存森林(RSF)的机器学习模型。通过18,250人健康体检队列的3年随访数据,筛选出BMI、TG等14个关键预测因子,构建的RSF模型显著优于传统Cox模型(iAUC 0.856 vs 0.759),实现精准风险分层(高低风险组NAFLD-free时间20.86 vs 36.76个月),为NAFLD动态风险评估提供了新工具。

  

非酒精性脂肪肝病(NAFLD)已成为全球最常见的慢性肝病,成人患病率高达30%且每年增长1%。这种以肝细胞脂肪堆积为特征的代谢性疾病,不仅增加肝硬化、肝癌风险,还与2型糖尿病、动脉粥样硬化等密切相关。然而现行诊断金标准肝活检具有创伤性,超声筛查又缺乏预测性,难以满足大规模健康管理需求。

山东第一医科大学第一附属医院健康管理中心的Hongyu Zhang团队创新性地将机器学习生存分析方法引入NAFLD预测领域。研究人员通过对18,250名体检者3年随访数据的分析,开发出能动态评估NAFLD风险的随机生存森林(RSF)模型,相关成果发表在《BMC Gastroenterology》。这项研究首次揭示了NAFLD风险随时间变化的分布规律,为代谢性肝病的早期干预提供了重要工具。

研究采用回顾性队列设计,通过LASSO回归从33项临床指标中筛选出BMI、碱性磷酸酶(ALP)、尿酸(UA)等9个关键预测因子。采用7:3比例划分训练集与测试集,分别构建Cox比例风险模型和RSF模型,通过iAUC、iBS等指标评估性能,并利用部分依赖图解析变量贡献度。

重要发现包括:

  1. 模型性能比较:RSF模型展现出显著优势,其综合判别指数(iAUC)达0.856(95%CI 0.837-0.874),较Cox模型提高12.8%;校准指标iBS为0.116,误差降低21.6%。

  2. 风险分层价值:基于70.84风险阈值划分的高低风险组,NAFLD-free时间存在16个月的显著差异(20.86 vs 36.76个月,P<0.0001)。

  3. 关键预测因子:变量重要性分析显示,BMI(VIMP 31.24)和甘油三酯(TG,VIMP 6.28)贡献度最高,其部分依赖曲线呈现显著剂量效应关系。

这项研究突破了传统预测模型仅评估固定时间点风险的局限,首次实现了NAFLD风险的动态可视化。RSF模型可整合至健康信息系统,在常规体检中实时生成风险评分,对阈值超过70.84的个体启动强化干预。研究同时证实,即使在校正了肝功能指标后,代谢参数(BMI、TG)仍是NAFLD最强劲的预测因子,这为代谢相关脂肪性肝病(MAFLD)的新分型提供了佐证。

值得注意的是,该模型在预测30个月后的晚期发病病例时表现下降,提示需要延长随访周期以完善长期预测效能。未来研究可纳入腰围、生活方式等更多变量,并探索SHAP值解释等新技术提升模型可解释性。这项成果为代谢性肝病的精准预防提供了创新方法学范式,对实现"健康中国2030"慢性病防控目标具有重要实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号