基于TyG指数和超声特征的机器学习模型预测新发2型糖尿病患者3年心血管风险
《BMC Medical Informatics and Decision Making》:Development of an explainable machine learning model for 3-year cardiovascular risk prediction in new-onset type 2 diabetes using the TyG index and ultrasound features
【字体:
大
中
小
】
时间:2025年11月05日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对新发2型糖尿病(T2D)患者心血管疾病(CVD)风险预测需求,开发了整合临床数据和超声特征的机器学习模型。研究团队通过SHAP可解释性分析和递归特征消除,构建了包含高血压、年龄、TyG指数、斑块负荷等6个关键特征的LightGBM模型,在训练集和验证集的AUC分别达到0.845和0.772,显著优于传统Framingham风险评分。该研究为早期识别高危患者提供了精准工具,并部署了基于Streamlit框架的网页应用,推动了个体化心血管风险管理。
在全球糖尿病患病率持续攀升的背景下,心血管并发症已成为糖尿病患者的主要死因。尤其值得关注的是,新发2型糖尿病患者在疾病早期阶段就面临着显著升高的心血管风险,但由于代谢紊乱相对较轻且缺乏明显临床症状,这类患者的心血管预防措施常常被忽视。传统风险评估工具如Framingham风险评分(FRS)在糖尿病人群中的判别能力有限,且未纳入动脉粥样硬化的客观影像学指标,亟需开发更精准的风险分层工具。
在此背景下,蒋珍珍等人发表在《BMC Medical Informatics and Decision Making》的研究,创新性地将甘油三酯-葡萄糖(TyG)指数与颈动脉超声特征相结合,利用机器学习技术构建了新发2型糖尿病患者3年心血管风险预测模型。研究团队通过严谨的特征筛选和模型优化,最终确定的LightGBM模型仅需6个特征即可实现稳健预测,为临床早期干预提供了重要工具。
研究采用的关键技术方法包括:从2018年1月至2020年12月期间筛查的3,358例住院T2D患者中,最终纳入584例新发T2D患者构成研究队列;通过SHapley Additive exPlanations(SHAP)和递归特征消除进行特征选择;使用随机森林(RF)、极限梯度提升(XGBoost)、分类提升(CatBoost)和轻量梯度提升机(LightGBM)四种机器学习算法构建预测模型;采用五折交叉验证和网格搜索优化超参数;通过决策曲线分析(DCA)和校准曲线评估临床效用。
研究人群平均年龄54岁,男性占65.6%,高血压患病率44.9%。与无心脑血管疾病组相比,CVD组患者年龄更大(56岁 vs 53岁),吸烟率和高血压患病率更高,TyG指数(8.11 vs 7.77)和心血管代谢指数(CMI)(0.97 vs 0.74)显著升高。超声特征分析显示,CVD组患者斑块患病率(72.7% vs 37.4%)、多发斑块比例(38.6% vs 15.5%)和最大斑块厚度均显著高于非CVD组。
通过相关性分析和方差膨胀因子(VIF)评估,最终23个特征进入模型构建。特征选择过程中发现,LightGBM模型仅需6个特征即可达到稳定性能,增加特征数量并未显著提升预测效能。最终确定的6个关键特征包括:高血压、年龄、TyG指数、颈动脉斑块负荷、最大斑块厚度和内膜中层厚度(IMT)。
模型在训练队列中AUC为0.845,验证队列中AUC为0.772,显著优于传统FRS评分(训练队列AUC 0.672,验证队列AUC 0.608)。Delong检验显示两组差异具有统计学意义(P<0.05)。敏感性分析确定0.2为最佳阈值,在敏感性和特异性间取得最佳平衡。
SHAP分析提供了模型的全局和局部可解释性。特征重要性排序显示,TyG指数、颈动脉斑块负荷和最大斑块厚度是影响预测的最重要因素。
通过SHAP力力图可实现个体化预测解释,将患者的基线风险值f(x)通过sigmoid函数转换为3年CVD发生概率。风险分层分析将患者分为低、中、高风险三组, cutoff值分别为11.36%、39.20%和49.43%。中风险组和低风险组相比,CVD发生风险增加3.812倍(95%CI 1.997-7.277),高风险组增加14.637倍(95%CI 4.328-49.501)。
研究团队开发了基于Streamlit框架的网页应用程序,临床医生可通过输入6个关键特征值,实时获取患者个体化的3年CVD风险概率。
该研究通过整合临床数据和超声影像特征,成功构建了针对新发2型糖尿病患者的心血管风险预测模型。与传统评分系统相比,该模型表现出更优的预测性能,且具备良好的可解释性。特别值得关注的是,TyG指数作为反映胰岛素抵抗和异常脂肪代谢的综合指标,在预测中展现出重要价值。而颈动脉超声特征(斑块负荷、最大斑块厚度和IMT)的加入,进一步增强了模型识别早期动脉粥样硬化的能力。研究的创新之处在于将机器学习算法与临床可及的检测指标相结合,既保证了预测精度,又兼顾了临床实用性。部署的网页应用工具为模型的实际转化提供了便利,有助于在基层医疗机构推广使用。尽管存在单中心研究的局限性,但该研究为新发糖尿病患者心血管风险管理提供了新思路,未来通过多中心外部验证有望进一步优化模型性能,推动个体化防治策略的实施。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号