基于机器学习与LASSO回归探索C反应蛋白-甘油三酯-葡萄糖指数(CTI)与糖尿病的关联:NHANES 2001–2010横断面研究
【字体:
大
中
小
】
时间:2025年09月29日
来源:Medicine 1.4
编辑推荐:
本研究通过分析美国国家健康与营养调查(NHANES)2001–2010年数据,结合加权逻辑回归、限制性立方样条(RCS)和机器学习方法,首次揭示C反应蛋白-甘油三酯-葡萄糖指数(CTI)与糖尿病风险呈显著正相关(OR=1.96)。研究构建了包含年龄、种族、高血压等8个变量的诺莫图预测模型(AUC=0.92),并验证CatBoost模型在糖尿病预测中的优越性(AUC=0.843)。SHAP分析提示高血压为最强预测因子。CTI作为低成本、易获取的炎症和胰岛素抵抗(IR)标志物,为糖尿病早期风险筛查提供了新思路。
1. 引言
糖尿病已成为全球重大公共卫生问题,其发病率持续上升,严重影响着人群健康和生活质量。根据全球疾病负担研究的系统分析,2021年全球糖尿病患者达5.29亿,预计到2050年将超过13.1亿。糖尿病死亡率在不同国家存在显著差异,中国、日本、韩国、北欧国家和加拿大的死亡率较低,而南非、埃及、阿曼和墨西哥的死亡率较高。
C反应蛋白(CRP)是一种急性时相反应蛋白,通常在炎症和感染等状态下显著升高。近年来的证据表明,CRP水平与糖尿病的发生和发展密切相关,尤其是在2型糖尿病(T2DM)患者中。CRP作为炎症标志物,在T2DM患者中显著升高,并与胰岛素抵抗(IR)和高脂血症等代谢紊乱密切相关。
胰岛素抵抗(IR)是T2DM的核心病理生理驱动因素,定义为肝脏、骨骼肌和脂肪组织对胰岛素敏感性的降低。甘油三酯-葡萄糖指数(TyG)通过空腹甘油三酯和葡萄糖浓度计算,已被验证为一种简单可靠的IR替代标志物。研究表明,TyG值升高与糖尿病风险增加相关。
2022年,Ruan等人首次提出C反应蛋白-甘油三酯-葡萄糖指数(CTI),以综合评估炎症和IR状态。CTI基于CRP和TyG指数构建,已在癌症死亡率、子宫内膜异位症、勃起功能障碍、抑郁症状、冠心病和卒中等多种疾病中显示出预测价值。此外,CTI源自实验室检测,具有成本低、易获取的优点。然而,CTI与糖尿病之间的相关性尚未得到充分研究。因此,本研究旨在通过大样本、基于人群的横断面研究设计,探讨CTI与糖尿病之间的关系。
传统预测模型通常依赖于高质量的结构化数据,但高维数据中大量特征变量常导致过拟合、模型训练时间延长和预测准确性下降。机器学习(ML)算法作为人工智能的一个分支,能够有效处理高维数据中的复杂非线性关系,提高从大数据中提取信息的准确性,并简化原始数据分析。机器学习在医学领域的疾病预测中已得到广泛应用。SHAP可视化分析是解释机器学习决策过程的首选方法,能够直观量化每个特征对模型预测的贡献,并克服传统“黑箱”模型的局限性。
2. 方法
2.1. 数据来源
本研究数据来源于美国国家健康与营养调查(NHANES)。NHANES的研究方案已获得国家健康统计中心研究伦理审查委员会的批准,所有参与者均签署了知情同意书。本研究设计为对2001年至2010年公开发布的NHANES数据进行横断面分析。
2.2. 研究人群
本研究最初包括2001年至2010年NHANES的52,195名参与者。排除标准包括:32,385名缺少问卷数据的参与者、653名缺少人口统计学数据的参与者、9902名缺少实验室数据的参与者以及119名缺少检查数据的参与者。最终,研究共纳入8506名参与者,其中糖尿病患者888名,非糖尿病患者7618名。
2.3. CTI和糖尿病的定义
CTI = 0.412 × Ln(C反应蛋白)(mg/dL) + Ln [甘油三酯(mg/dL) × 空腹血糖(mg/dL)/2]
本研究的暴露变量为CTI。空腹血浆葡萄糖通过已糖激酶法测量(NHANES实验室协议)。为确保计算CTI所需的完整实验室数据(包括CRP和空腹血浆葡萄糖/甘油三酯值),研究仅纳入2001年至2010年的数据周期,因为CRP仅在1999年至2010年的周期中测量。
糖尿病诊断通过自我报告问卷(DIQ010、DIQ050、DIQ070)确定,问题包括:“除了孕期,您是否曾被医生或健康专业人员告知患有糖尿病或糖糖尿病?”“您现在是否使用胰岛素?”“您现在是否服用降糖药?”参与者可选择“是”或“否”作为答案。
2.4. 研究变量
协变量包括人口统计学数据(年龄、性别、种族、教育水平、贫困收入比和婚姻状况)、检查数据(体重指数(BMI))以及问卷数据(吸烟习惯、饮酒频率、高血压、癌症和心血管疾病(CVD))。高血压诊断基于两个问题:“您是否在两次或更多次就诊中被告知患有高血压?(自我报告问卷BPQ030)”“您是否因高血压被告知服用处方药?(自我报告问卷BPQ040A)”吸烟习惯根据两个问题的答案分类:“您一生中是否吸过至少100支香烟?(自我报告问卷SMQ020)”“您现在吸烟吗?(自我报告问卷SMQ040)”CVD包括一系列疾病,如卒中(自我报告问卷MCQ160f)、心绞痛(自我报告问卷MCQ160d)、充血性心力衰竭(自我报告问卷MCQ160b)和冠状动脉疾病(自我报告问卷MCQ160c)。
2.5. 统计分析
临床数据使用R 4.4.2软件进行分析。本研究采用加权逻辑回归分析探讨CTI与糖尿病患病率之间的关系。研究通过三个逐步调整的模型进行分析:模型1呈现未调整的原始值;模型2在模型1的基础上加入了人口统计学因素、BMI、吸烟习惯和饮酒频率等协变量;模型3在模型2的基础上进一步加入了高血压、CVD和癌症等慢性病相关变量。
为研究CTI与糖尿病之间是否存在非线性或线性关系,研究使用限制性立方样条(RCS)进行分析,在控制其他潜在混杂因素的情况下测试了三个节点。研究还通过亚组分析说明CTI与糖尿病之间关联的稳定性,亚组包括年龄、性别、种族、教育、婚姻状况、BMI、吸烟状况、CVD、高血压和癌症等多个变量。
为应对高维数据和变量间多重共线性的挑战,研究采用最小绝对收缩和选择算子(LASSO)回归。LASSO是一种惩罚回归方法,同时进行变量选择和正则化,特别适用于预测变量数量相对于观测数量较多的数据集。这种方法有助于减轻过拟合风险,并通过将较不重要的预测系数收缩至零来增强模型的可解释性。LASSO回归模型在训练数据集上拟合,所选变量随后用于构建预测模型。模型的性能通过验证数据集评估,使用曲线下面积(AUC)和校准曲线等指标评估模型的预测准确性和校准。此外,研究还进行了决策曲线分析(DCA)以评估模型的临床效用。
鉴于数据的复杂性和高维性,本研究在构建机器学习模型之前采用LASSO回归进行特征选择,以确定结果预测中最关键的预测变量,同时降低数据集的维数并减轻过拟合风险。所选变量随后纳入机器学习分析。
在医学数据分析中,机器学习与传统统计的结合已成为一种趋势。传统统计方法提供了强大的理论基础和直观的可解释性,而机器学习擅长处理大型数据集和自动化复杂分析。在mlr3框架内,研究构建了一套判别模型,包括逻辑回归、支持向量机(SVM)、梯度提升机(GBM)、神经网络、随机森林、Xgboost、K近邻(KNN)、Adaboost、轻量梯度提升机(LightGBM)和CatBoost。
基准测试是系统评估和比较机器学习模型性能的关键方法。AUC作为模型选择的主要指标,其他指标提供模型性能的补充评估。为最小化机器学习模型的评估偏差,研究采用10折交叉验证进行数据重采样。模型间性能指标的差异通过方差分析和Kruskal-Wallis H检验评估。
为评估预测性能最佳的机器学习模型中的整体特征重要性,研究使用了SHAP值。SHAP是增强树模型可解释性的最新进展,采用博弈论方法聚合个体特征的局部贡献,从而在全局尺度上解释模型的行为。该方法被认为优于其他全局近似技术,因为它不仅量化了特征在模型中的重要性,还提供了每个特征在特定预测中作用的见解。
3. 结果
3.1. 参与者特征
本研究在排除缺失数据的参与者后,共纳入8506名参与者,包括888名糖尿病患者。与非糖尿病患者相比,男性、老年人、饮酒量增加者、BMI较高者、CTI升高者、既往吸烟者以及患有高血压、CVD和癌症的患者发生糖尿病的风险更高。
3.2. CTI与糖尿病患病率的关联
CTI被分为四分位数,用于评估其与糖尿病患病率的关联。研究发现,CTI在所有三个不同模型中均与糖尿病患病率呈显著正相关,且均具有统计学意义。此外,在调整所有协变量后(模型3),CTI最高四分位数与最低四分位数的OR及其95%置信区间为:OR=3.23(2.13–4.90),趋势P值<0.01。CTI每增加1单位,糖尿病患病概率增加223%。此外,RCS曲线分析显示CTI与糖尿病患病率之间存在显著的线性相关(P非线性=0.5200)。
3.3. 亚组分析
通过亚组分析进一步探讨不同人群特征对CTI与糖尿病患病率关系的影响。分析发现,CTI与糖尿病患病率在年龄、种族、教育水平、婚姻状况、BMI、高血压、CVD、吸烟和癌症亚组中保持稳定(交互作用P值>0.05)。然而,性别对CTI与糖尿病之间的关系存在显著交互作用(交互作用P值<0.05),表明CTI对糖尿病风险的影响可能因性别而异。可能的原因包括:首先,女性在T2DM诊断时平均年龄大于男性,且具有更高的BMI和胆固醇水平;其次,女性在患上T2DM后心血管疾病风险增加更为显著。
3.4. LASSO回归分析及诺莫图预测模型构建
通过LASSO回归分析筛选出8个变量,包括年龄、种族、婚姻状况、高血压、BMI、CVD和CTI。本研究利用LASSO回归进行特征选择。LASSO路径图直观展示了预测变量的选择过程:随着惩罚参数(λ)增加,较不重要预测变量的系数收缩至零,而较重要预测变量的系数在更宽的λ范围内保持非零。该图清晰指示了哪些预测变量与结果最相关。
交叉验证误差图用于确定λ的最优值。该图显示了平均交叉验证误差与λ对数的关系,最小误差指示最优λ。该最优λ被选择以平衡模型复杂性和预测性能,确保LASSO回归模型在偏差和方差之间达到最佳权衡。基于此最优λ选择的预测变量随后用于后续分析。
LASSO回归模型在验证队列中表现出令人满意的预测能力,AUC为0.92。基于LASSO回归选择的变量,构建了诺莫图预测模型。此外,生成了受试者工作特征(ROC)曲线、校准曲线和决策曲线分析(DCA)曲线,以全面评估该模型的性能。
3.5. 机器学习模型开发与验证中的特征选择
研究中变量的相关矩阵显示,年龄与高血压呈显著负相关,贫困收入比与教育水平呈显著正相关。
在评估各种机器学习模型预测糖尿病性能时,准确率、敏感性、特异性、精确度和F1分数等关键指标存在明显差异。
在评估机器学习模型时,AUC是模型区分阳性和阴性病例能力的关键指标。AUC值越接近1,表明分类性能越优异。在本分析中,CatBoost模型的AUC值最高,为0.843,表明其在将阳性实例排序高于阴性实例方面具有卓越能力。尽管其他指标如准确率、特异性或精确度未必最高,但CatBoost模型因其整体性能而被认为最适合本研究。决策曲线分析(DCA)用于比较各种预测模型的临床效用。
3.6. SHAP值解释
本研究利用SHAP分析直观解释最佳模型CatBoost中特征变量对预测的贡献。具体而言,条形图展示了特征变量的重要性及其平均SHAP值,特征按重要性从高到低排序。蜂群图提供了特征分布的全局概览,按平均SHAP值排序。该图中的每个点代表单个样本中特定特征的SHAP值,颜色表示特征值的大小(红色为高值,蓝色为低值)。该可视化澄清了特征值与其对预测影响之间的关系,包括单调和非线性模式。在特征中,高血压被确定为最重要的预测因子,具有最高的平均SHAP值,其次是年龄、CTI、BMI、种族、CVD、性别和婚姻状况。瀑布图和力图进一步阐明了特征变量对个体预测的贡献。瀑布图清晰展示了不同特征对每个个体糖尿病预测贡献的排名和幅度,黄色箭头表示正贡献,棕色箭头表示负贡献。力图以另一种格式呈现特征变量的贡献,箭头颜色和长度分别表示贡献的方向和幅度,最终得到每个个体的预测输出值。
4. 讨论
据我们所知,本研究首次探讨了CTI与糖尿病发病率之间的关联。利用NHANES数据,我们采用加权多因素逻辑回归分析、RCS和亚组分析来探索这种关系。基于2000年至2010年NHANES数据的分析显示,CTI与糖尿病发病率呈显著正相关,糖尿病风险随CTI四分位数(Q1-Q4)逐渐增加。当CTI被分为四分位数时,这种正相关关系保持一致。亚组分析表明,CTI与糖尿病患病率之间的关联在各种人口统计学和临床亚组中均稳定,包括年龄、种族、教育水平、婚姻状况、BMI、高血压、心血管疾病、吸烟状况和癌症病史。然而,性别与糖尿病之间存在显著的交互作用,表明CTI对糖尿病风险的影响可能因性别而异。
胰岛素抵抗(IR)是糖尿病发病机制中的核心机制之一,TyG指数已被广泛验证为评估IR的有效替代指标。Zhao等人、Zhang等人和Zhang等人的研究发现,TyG指数与糖尿病风险和死亡率增加相关。然而,传统TyG指数存在局限性,未能充分考虑炎症程度对代谢的影响。CRP和TyG指数均与糖尿病密切相关。鉴于炎症和IR与糖尿病之间的既定联系,可以假设CTI可能与糖尿病相关。我们的研究结果支持这一假设,证明了CTI与糖尿病发病率之间的显著关系。作为一种新型指标,CTI具有几个实际优势:易于获取且成本低廉。这些属性表明CTI有望作为识别糖尿病风险个体的预测工具。
在本研究中,我们利用LASSO回归确定了一组与糖尿病临床相关的预测变量,并随后构建了包含这些变量的诺莫图预测模型。通过LASSO回归,确定了8个显著预测变量,包括年龄、种族、婚姻状况、高血压、BMI、CVD和CTI。诺莫图预测模型表现出强大的性能,验证队列中的AUC为0.92。这表明该模型具有强大的区分能力和潜在的临床效用,可用于预测糖尿病。LASSO回归是一种强大的统计方法,适用于变量选择和正则化,特别是在预测变量数量相对于观测数量较多的场景中。通过对回归系数的绝对大小施加惩罚,LASSO可以将某些系数收缩至零,从而有效执行变量选择。在我们的研究中,LASSO回归从大量潜在预测变量中识别出8个关键变量,突出了与糖尿病最相关的因素。这种方法不仅增强了模型的可解释性,还降低了过拟合风险,这是高维数据分析中的常见问题。
使用所选预测变量构建的诺莫图预测模型提供了一个视觉化和定量化工具,用于估计糖尿病概率。诺莫图因其简单性、可解释性以及在临床环境中的易用性而在医学研究中得到广泛应用。验证队列中0.92的高AUC值表明该模型具有出色的区分能力,表明其能够有效区分高风险和低风险个体。这种性能水平与许多现有类似结果的预测模型相当或更优,突出了我们模型的潜在临床效用。
诺莫图模型的强大性能可归因于几个因素。首先,使用LASSO回归进行变量选择确保仅包含最相关的预测变量,降低了过拟合风险并提高了泛化能力。其次,人口统计学、临床和影像学预测变量的组合允许对风险进行全面评估,捕捉了潜在病理生理学的多个维度。最后,严格的验证过程,包括使用独立验证队列,为模型的可靠性和准确性提供了有力证据。
在本研究中,我们采用全面的机器学习方法探讨CTI与糖尿病风险之间的关系。我们的研究结果揭示了CTI与糖尿病发病率之间的正相关关系,表明CTI可能作为糖尿病风险评估的潜在生物标志物。在使用的十种机器学习模型中,CatBoost模型的AUC值最高,为0.843。这种卓越性能表明CatBoost可能特别适合捕捉各种临床特征与糖尿病风险之间的复杂关系。
CatBoost模型在本研究中的卓越性能可归因于几个因素。CatBoost旨在有效处理分类特征,这在通常包含数值和分类变量混合的医学数据集中尤其有利。此外,CatBoost通过减少过拟合和提高泛化能力来实现梯度提升,可能有助于其在我们分析中的稳健性能。0.843的高AUC值表明CatBoost可能是开发准确可靠糖尿病风险预测模型的宝贵工具,适用于临床实践。
SHAP可视化分析为了解各种因素在预测糖尿病风险中的相对重要性提供了宝贵见解。高血压成为最重要的因素,这与将高血压与糖尿病联系起来的确凿流行病学和临床证据一致。第二个最重要的因素是年龄,这是由于年龄相关的胰岛素敏感性和β细胞功能下降而众所周知的糖尿病风险因素。CTI、BMI、种族、CVD、性别和婚姻状况也被确定为糖尿病风险的重要贡献者。这些发现强调了糖尿病的多因素性质,并突出了在风险预测模型中考虑全面临床、人口统计学和影像学特征的重要性。
然而,我们的研究存在几个局限性,应予以承认。首先,用于模型训练和验证的数据集来自特定人群,这可能限制我们研究结果在具有不同人口统计学或临床特征的其他人群中的泛化能力。未来的研究应旨在多样化队列中验证我们的发现,以确保所识别关系和预测模型的稳健性。其次,尽管SHAP分析提供了关于特征重要性的见解,但它并未完全阐明特征之间的复杂交互作用。使用部分依赖图或交互分析等技术进行进一步调查可能有助于发现更微妙的关系。第三,尽管诺莫图提供了每个预测变量相对重要性的视觉表示,但它并未完全捕捉变量之间的复杂交互作用。第四,糖尿病状态仅通过自我报告的医生诊断和药物使用来确定,缺乏确证性实验室数据(例如空腹血浆葡萄糖、HbA1c或2小时口服葡萄糖耐量试验)。因此,未诊断或误报的病例可能引入了错误分类偏倚,可能减弱了CTI与糖尿病之间观察到的关联。未来的研究应纳入客观血糖测量以验证我们的发现。此外,高血压、吸烟状况和心血管疾病仅通过自我报告问卷回答定义,可能受到回忆或社会期望偏倚的影响,并可能导致暴露错误分类。未来的研究应纳入客观测量(例如血压读数、可替宁水平或临床记录)以验证这些变量。
5. 结论
在本研究中,基于NHANES大样本数据调查了CTI与糖尿病之间的相关性。结果表明,CTI与糖尿病患病率呈显著正相关,CTI可作为预测糖尿病风险的潜在指标,为糖尿病的早期预防和干预提供参考。在本研究中,我们采用结合LASSO回归和机器学习技术的全面方法,探讨了CTI与糖尿病发病率之间的关系,并开发了稳健的糖尿病风险预测模型。包含这些变量的诺莫图预测模型表现出出色的区分能力。此外,在各种机器学习模型中,CatBoost表现出最高性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号