基于LightGBM算法的非糖尿病人群胰岛素抵抗预测模型构建与临床价值验证

【字体: 时间:2025年06月30日 来源:JMIR Medical Informatics 3.1

编辑推荐:

  本研究针对胰岛素抵抗(IR)这一2型糖尿病前兆及多种慢性病风险因素,开发了基于LightGBM算法的机器学习预测模型。研究人员通过整合17,287名正常血糖人群的问卷数据和17项低成本生化指标,构建出AUC达0.8456的高效预测工具,特征分析揭示BMI、FBG、HDL-C等关键影响因素。该模型在回顾性队列中验证出高风险人群糖尿病发生率是低风险组的5.1倍,为大规模IR筛查提供了实用解决方案。

  

胰岛素抵抗(Insulin Resistance, IR)作为2型糖尿病的关键前驱状态,正随着人口老龄化和不良生活方式在中国呈现爆发式增长。传统金标准高胰岛素正葡萄糖钳夹技术虽精确但操作复杂,而基于空腹胰岛素计算的HOMA-IR指数又因检测不便难以普及。这种诊断困境使得大量潜在高风险人群无法获得早期干预,最终导致中国糖尿病患病率持续攀升。面对这一公共卫生挑战,中南大学湘雅三医院健康管理中心的研究团队创新性地将机器学习技术引入IR筛查领域,通过整合常规体检数据和生活方式问卷,开发出高效便捷的预测工具,相关成果发表在《JMIR Medical Informatics》期刊。

研究团队采用横断面研究设计开发模型,并利用回顾性队列验证临床价值。关键技术包括:1) 从2018-2022年17,287名空腹血糖正常体检者中提取51个特征(34个问卷指标+17项生化指标);2) 应用随机欠采样处理数据不平衡;3) 对比RF、LightGBM等5种算法性能;4) 采用SHAP值解析特征重要性;5) 在20,369人随访队列中验证模型预测效能。

研究结果

特征工程
通过CatBoost算法筛选出34个有效问卷特征,结合17项生化指标构成最终模型。消除BMI与腰围等多重共线性后,保留的Top10特征包括BMI、空腹血糖(FBG)、高密度脂蛋白胆固醇(HDL-C)等,其中ALT与TBIL等肝功能指标意外展现出重要预测价值。

模型性能评估
LightGBM在测试集表现最优:准确率0.7542、灵敏度0.6639、AUC 0.8456,显著优于XGBoost等对照算法。SHAP分析揭示BMI(正向)和HDL-C(负向)对预测贡献最大,与已知代谢综合征病理机制高度吻合。

临床验证
模型将回顾性队列分为高风险(n=5101)和低风险(n=15268)组,5年随访显示高风险组糖尿病发生率(4.6%)是低风险组(0.9%)的5.1倍(HR=5.1)。Kaplan-Meier曲线显示风险分层后两组发病率差异从第2年开始显著扩大。

讨论与结论
该研究突破性地证明常规体检数据通过机器学习转化后可实现高效IR筛查。相比美国团队基于NHANES数据库开发的模型(AUC 0.87),本研究模型在保持精度的同时大幅降低检测成本。特征重要性结果与2003年美国临床内分泌医师学会共识高度一致,证实BMI、血脂异常等确实是IR综合征核心要素。肝功能指标的突出贡献提示非酒精性脂肪肝与IR的潜在关联,为后续机制研究指明方向。

研究局限性包括样本地域来源单一、糖尿病诊断未纳入糖化血红蛋白等指标。未来计划开发用户友好型应用界面,并通过前瞻性研究进一步验证。这项成果为基层医疗机构提供了可推广的IR筛查工具,通过早期识别高风险个体并针对性干预,有望在糖尿病一级预防领域产生重大公共卫生效益。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号