基于机器学习的中国中老年心血管代谢疾病患者抑郁风险预测模型构建及关键因素分析

【字体: 时间:2025年05月24日 来源:BMC Public Health 3.5

编辑推荐:

  本研究针对中国中老年心血管代谢疾病(CMD)患者抑郁风险预测难题,通过CHARLS队列数据(2018-2020)纳入4,477例患者,采用LASSO回归筛选风险因素并构建LR、RF、XGBoost三种机器学习模型。研究发现残疾状态、疼痛、教育水平等11个关键风险因素,其中逻辑回归(LR)模型预测效能最佳(AUC=0.69),为CMD患者心理健康分层干预提供了客观量化工具。

  

心血管代谢疾病(CMD)作为包含高血压、糖尿病、血脂异常等多种慢性病的综合征,正随着人口老龄化进程在中国中老年群体中呈现爆发式增长。2023年《中国心血管健康与疾病报告》显示,我国成人超重肥胖率已超50%,糖尿病患者心脑血管疾病死亡率高达50%-80%,凸显CMD已成为重大公共卫生挑战。更令人担忧的是,CMD与抑郁症存在双向关联:研究显示CMD患者抑郁发生率是普通人群的2-3倍,而抑郁又会通过影响治疗依从性、加重炎症反应等途径恶化CMD预后,形成"生理-心理"恶性循环。然而,当前临床缺乏客观的抑郁风险评估工具,主要依赖医生主观判断,在基层医疗场景中尤其需要可量化的预测模型。

北京大学的研究团队基于中国健康与退休纵向研究(CHARLS)2018-2020年数据,纳入4,477例45岁以上CMD患者,采用机器学习技术构建抑郁风险预测模型。研究通过LASSO回归筛选特征变量,比较了逻辑回归(LR)、随机森林(RF)和XGBoost三种算法的预测效能,并利用ROC曲线、校准曲线和决策曲线评估模型性能。关键技术包括:1)使用CESD-10量表(流行病学研究中心抑郁量表)评估抑郁症状;2)通过十折交叉验证优化LASSO回归的λ值;3)采用SHAP值解析XGBoost模型特征重要性;4)按7:3比例划分训练集(3,135例)与测试集(1,342例)验证模型泛化能力。

【研究结果】

  1. 基线特征分析:抑郁组女性占比显著更高(56% vs 44%),农村居民抑郁发生率是城市居民的1.8倍(64% vs 36%)。非退休人员(85%)、慢性病患者(73%)及自评健康差者抑郁风险显著升高(P<0.001)。

  2. 风险因素筛选:LASSO回归确定11个关键变量,包括残疾状态(OR=1.26)、疼痛(重度疼痛OR=1.44)、退休状态(退休者风险降低31%)、教育水平(高中以上学历风险降低36%)等。

  3. 模型性能比较:LR模型表现最优,测试集AUC达0.69(95%CI:0.694-0.736),敏感性0.142,特异性0.954。RF模型虽敏感性较高(0.727),但总体精度较低(AUC=0.64)。

  4. 特征重要性:XGBoost的SHAP分析显示,自评健康(平均SHAP值0.38)、居住地(0.32)、教育水平(0.29)贡献度最高。Nomogram可视化工具整合生理与心理指标,当总分>440分时抑郁风险超50%。

  5. 临床适用性:决策曲线分析显示模型在5%-35%风险阈值区间具有显著净收益,峰值出现在25%阈值处,适合基层医疗机构的成本效益决策。

【结论与意义】
该研究首次建立针对中国中老年CMD患者的机器学习抑郁预测模型,揭示社会人口学(农村居住、低教育水平)、生理健康(慢性病负担、疼痛)与心理因素(未来希望感、生活满意度)的协同作用机制。创新性体现在:1)将LASSO回归的降维优势与临床可解释性结合,特征数量减少60%;2)开发的Nomogram整合客观指标与主观感受,弥补传统量表侧重症状描述的局限;3)验证机器学习在心理健康领域的适用边界,证明线性模型(LR)在中等样本量(n=4,477)场景下可能优于复杂集成算法。

研究存在CESD-10自评量表可能低估症状、城乡样本分布偏差等局限,但为CMD患者的心理共病管理提供了重要工具。未来可结合生物标志物(如C反应蛋白)提升预测精度,并探索移动健康(mHealth)技术实现动态风险评估。该成果发表于《BMC Public Health》,对实现"生理-心理"双重健康管理的精准公共卫生策略具有实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号