基于深度学习算法解析2型糖尿病主要并发症的临床风险谱:共享与独特风险因素的识别与验证

【字体: 时间:2025年09月11日 来源:Frontiers in Endocrinology 4.6

编辑推荐:

  本研究运用多种机器学习算法(XGBoost、LightGBM、Random Forest、TabPFN、CatBoost)对1448例T2DM患者数据进行分析,系统评估糖尿病肾病(DN)、视网膜病变(DR)、周围神经病变(DPN)及糖尿病足(DF)的风险特征。研究识别出33个风险因子(含6个共享因子如UACR、糖尿病病程等),模型性能优异(如DN的AUC达0.905),并通过SHAP分析揭示并发症特异性风险机制,为T2DM多并发症的个性化风险分层与早期干预提供了数据驱动的新策略。

  

引言

糖尿病已成为全球健康危机,尤其2型糖尿病(T2DM)患者数量持续增长,预计2045年全球患者将达7.83亿。T2DM的主要并发症包括糖尿病肾病(DN)、视网膜病变(DR)、周围神经病变(DPN)和糖尿病足(DF),这些并发症显著增加患者致残和死亡风险。DN是发达国家终末期肾病的主因,DR导致视觉损伤和失明,DPN随病程延长发病率升高,约50%的T2DM患者会发生神经病变,而DF则是最严重的并发症之一,常导致残疾和死亡。老年T2DM患者尤其易出现肾功能下降,早期干预对并发症管理至关重要。然而,传统风险模型如逻辑回归和Cox比例风险模型在捕捉风险因子(如HbA1c、血压、血脂)与并发症间的非线性关系时存在局限,且多数研究仅关注单一并发症,忽视了共享病理生理通路(如高血糖诱导的内皮功能障碍在DN、DR和DPN中的作用)。此外,超过75%的T2DM患者诊断时已伴有至少一种合并症,44%有两种以上,40%的60岁以上患者有三种及以上长期疾病,这凸显了 holistic 风险管理的必要性。近期研究开始应用机器学习技术,但样本量小、外部验证不足以及时间因素利用不充分仍是挑战。本研究旨在通过多种机器学习算法开发T2DM多并发症风险评估工具,识别共享和独特风险因子,为筛查和干预提供新见解。

材料与方法

研究纳入西安市第九医院2022年1月至2023年12月间的1448例T2DM患者数据,患者年龄≥18岁,符合美国糖尿病协会(ADA)诊断标准,并由两名独立内分泌学家确认,病程至少一年。并发症诊断基于中国糖尿病防治指南(2024年版),排除标准包括数据不完整、并发症信息缺失或其他肾或血管功能障碍主因。数据预处理后,初始152个变量通过相关性分析(|r| > 0.8阈值)去除冗余,最终保留129个特征,分为三组:人口统计学指标(年龄、性别、BMI、糖尿病病程等)、生化标志物(HbA1c、UACR、血脂谱等)和并发症相关指标(TPOAB、D-Dimer等)。分类变量(如吸烟状态)进行二进制或独热编码,连续变量(如血压、HbA1c)通过Z-score标准化。缺失值率<5%,使用多重插补链式方程(MICE)处理,并通过完整案例分析验证插补影响。模型构建采用五种机器学习算法:XGBoost、LightGBM、Random Forest、CatBoost和TabPFN,针对DF的类别不平衡应用SMOTE过采样和类别权重调整。数据集按70%训练和30%测试分割,5折交叉验证确保稳定性,性能评估指标包括准确度、精确度、召回率、F1分数和ROC-AUC。使用SHapley Additive exPlanations(SHAP)分析结合XGBoost模型解释特征重要性,逻辑回归作为基准比较。所有分析使用R 4.3.3和Python 3.7.7完成。

结果

患者基线特征显示,中位年龄54.0岁,男性占66.9%,训练集(N=1013)和测试集(N=435)在年龄、吸烟、饮酒、糖尿病病程(中位数8.0年)、腰围、BMI和腰臀比(WHR)上无显著差异。DN、DR、DF和DPN的患病率分别为23.3%、27.2%、2.8%和85.2%。机器学习模型性能优异:对于DN,TabPFN的AUC最高(0.905),Random Forest准确度最高(0.878),XGBoost的F1分数最高(0.703);对于DR,LightGBM的AUC达0.801,TabPFN准确度0.805;对于DF,经过重采样和惩罚后,Random Forest和TabPFN准确度达0.961,LightGBM的AUC为0.704;对于DPN,TabPFN和CatBoost实现完美召回(1.000)和最高F1分数(0.915)及准确度(0.844)。整体上,TabPFN在多种并发症中表现稳健,而其他算法在特定并发症中各有优势。逻辑回归性能较差,证实机器学习算法的优越性。SHAP分析识别出各并发症的前10重要特征:DN中UACR和Y蛋白最关键;DR中糖尿病病程和TPOAB主导;DF中DN病史、间接胆红素(IBILI)和尿肌酐(U-Cr)关键;DPN中糖尿病病程、收缩压(SBP)和淋巴细胞水平重要。共享风险因子共6个:UACR(DN和DR)、糖尿病病程(DR、DPN和DF)、IBILI(DF和DPN)、DN病史(DR和DF)、U-Cr(DR和DF)和MCHC(DN和DPN)。独特因子包括DN的Y蛋白和肌酐、DR的TPOAB和纤维蛋白降解产物(FDP)、DF的D-Dimer和总甲状腺素(TT4)、DPN的淋巴细胞和SBP。MCHC作为共享因子,较低值增加DN和DPN风险。

讨论

本研究通过机器学习算法系统评估了T2DM主要并发症的风险特征,揭示了并发症特异性和共享的风险谱。SHAP分析突出了各并发症的独特生物学通路:DN与肾脏特异性标志物如Y蛋白和肌酐相关,反映肾小球超滤和肾小管间质损伤;DR风险随糖尿病病程延长而增加,并与TPOAB关联,提示自身免疫过程可能参与视网膜血管炎症;DF风险与IBILI和U-Cr相关,表明代谢和血管因素在足部并发症中的作用;DPN则与糖尿病病程、高血压和淋巴细胞介导的炎症相关,协同加剧神经损伤。模型性能显示,TabPFN和CatBoost在处理分类数据和小样本时表现突出,Random Forest适用于不平衡数据,XGBoost提供高可解释性,LightGBM在DF评估中领先。与传统单一并发症模型相比,本研究提供了 holistic 风险评估框架,整合了T2DM特定变量(如BMI、APOA1),并通过共享因子如UACR和糖尿病病程强调了多并发症管理的必要性。局限性包括单中心横断面设计可能限制泛化性,DF事件数少导致部分指标不完整,缺乏遗传、生活方式和时间动态数据。未来研究应扩大样本、进行多中心验证、整合纵向数据、探索共享通路,并应用堆叠模型提升多病风险评估。总之,这些发现为T2DM个性化风险管理和早期干预奠定了基础,推动数据驱动策略在临床实践中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号