
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用XGBoost机器学习算法揭示孟加拉农村高血压成人焦虑抑郁症状的影响因素及其公共卫生意义
【字体: 大 中 小 】 时间:2025年09月11日 来源:Frontiers in Psychology 2.9
编辑推荐:
本综述采用极端梯度提升(XGBoost)机器学习算法,系统分析了孟加拉农村高血压成人中焦虑(GAD-7)与抑郁(PHQ-9)症状的流行情况及影响因素。研究发现约6%患者存在症状,XGB模型预测效能(AUC: 93.1%/90.7%)显著优于传统逻辑回归(LR)。通过SHAP值解析确定婚姻状况、BMI、心血管疾病(CVD)、教育程度等为核心影响因素,为基层精神卫生干预提供数据驱动的决策依据。
引言
焦虑和抑郁障碍作为全球精神卫生领域的重要挑战,在世界范围内造成显著疾病负担。根据世界卫生组织数据,2019年全球约26.6%和28.6%人口分别遭受焦虑和抑郁困扰。在南亚地区,焦虑和抑郁的时点患病率分别达12%和16%,孟加拉国亦呈现相似趋势。特别值得关注的是,焦虑抑郁常与非传染性疾病如高血压、糖尿病和心血管疾病(CVD)共病存在,形成复杂的健康挑战。高血压患者中精神障碍的共存可能导致更严重的CVD结局或死亡风险上升,而高血压引发的慢性炎症反应也可能反向影响心理健康。
在孟加拉国,超过25%人口受高血压影响,其中农村地区占全国人口的68.5%,医疗资源匮乏、媒体覆盖不足和信息缺乏使得这些问题尤为突出。尽管高血压和精神健康问题在孟加拉国普遍存在,但针对农村高血压患者焦虑抑郁症状的研究仍属空白。传统研究多采用理论驱动变量和回归模型,而机器学习(ML)方法能够通过数据驱动方式识别复杂非线性关系,为因素识别提供新视角。
研究方法
研究设计与样本
本研究采用横断面设计,于2021年8月至11月通过多阶段整群随机抽样从孟加拉国18个村庄招募参与者。抽样过程从随机选择库尔纳专区开始,依次随机选取杰奈达县、杰奈达萨达尔乌帕齐拉和纳尔丹加联盟,最终从联盟内的18个村庄中招募样本。采用Kish网格法每户选择一名成员进行访谈,排除孕妇、确诊精神障碍者和近3个月内手术者。
样本量计算基于农村高血压患病率27%,置信水平95%,允许误差3%,初始样本量为841人。考虑多阶段抽样设计效应1.54,最终确定样本量为1,472人,实际收集1,603人数据,其中496人确诊高血压。
血压测量与高血压定义
血压测量要求参与者至少30分钟内避免咖啡和吸烟,取三次测量的平均值。高血压定义为:平均收缩压(SBP)>140 mmHg或舒张压(DBP)>90 mmHg,或已被注册医师诊断,或正在服用抗高血压药物。
结局变量
焦虑和抑郁症状分别采用广泛性焦虑障碍量表(GAD-7)和患者健康问卷(PHQ-9)评估。两个量表均采用4点李克特评分(0-3分),总分分别为21分和27分。根据孟加拉国验证研究的临界值,将得分>10分定义为存在症状。GAD-7和PHQ-9的内部一致性信度分别为Cronbach's α=0.74和0.69。
自变量
包括人口学特征(年龄、性别、教育程度、就业状况、婚姻状况)、行为因素(咀嚼烟草、吸烟史)、人体测量学特征(体重指数BMI、腰臀比)和临床特征(糖尿病、CVD、其他慢性病、高血压家族史)。
统计分析
采用描述性分析考察基线特征,卡方检验分析变量间关系。使用XGBoost机器学习算法和传统逻辑回归(LR)模型预测症状存在,并通过5折嵌套交叉验证评估模型性能。采用自适应合成(ADASYN)重采样技术处理类别不平衡问题。通过SHapley加性解释(SHAP)技术解析和排序影响因素。模型性能通过准确度、敏感性、特异性、精确度、F1分数、Brier评分和受试者工作特征曲线(ROC)进行评估。
研究结果
背景特征
496名农村高血压患者中,40.7%年龄≥50岁,51%为男性。33.3%无正规教育,22.8%咀嚼烟草,73.4%超重或肥胖,14.3%患糖尿病,9.5%有CVD,36.9%有高血压家族史。
焦虑抑郁症状患病率
焦虑症状患病率为5.9%,抑郁症状为6.4%。焦虑症状在高教育程度(14.0%)、正常或偏低体重(9.9%)、有CVD(12.8%)和有高血压家族史(8.7%)人群中显著更高。抑郁症状在女性(8.7%)、当前烟草使用者(12.4%)、有CVD(10.6%)和有高血压家族史(9.8%)人群中更常见。
变量选择与模型性能
XGB模型识别出婚姻状况、BMI、CVD、教育程度、高血压家族史和就业状况为焦虑症状的主要影响因素。对于抑郁症状,咀嚼烟草、高血压家族史、婚姻状况、CVD、性别和教育程度成为最重要因素。
XGB模型在预测焦虑症状时准确率达85.6%(LR:76.9%),敏感性95.5%(LR:90.0%),特异性71.7%(LR:64.7%),ROC评分93.1%(LR:83.8%)。预测抑郁症状时准确率83.4%(LR:75.0%),敏感性92.4%(LR:87.5%),特异性69.2%(LR:55.6%),ROC评分90.7%(LR:79.7%)。校准曲线显示XGB模型对两种结局均接近理想校准状态。
影响因素分析
非在婚状态(OR:1.01)、正常或偏低体重(OR:4.70)、有CVD(OR:3.33)、高教育程度(OR:4.22)、有高血压家族史(OR:2.25)和失业状态(OR:1.24)与焦虑症状风险增加相关。咀嚼烟草(OR:4.02)、高血压家族史(OR:2.12)、非在婚状态(OR:1.19)、有CVD(OR:2.09)、女性(OR:3.10)和高教育程度(OR:3.22)与抑郁症状风险增加相关。
讨论
本研究首次在孟加拉农村高血压人群中应用XGBoost机器学习算法分析焦虑抑郁症状的影响因素。约6%的患病率与全国普通人群相当,但低于阿富汗、尼泊尔等邻国同类人群。XGB模型在所有性能指标上均优于传统LR模型,这与先前研究一致,证明ML在临床预测中的优势。
影响因素分析显示,教育程度、婚姻状况、CVD和高血压家族史是焦虑和抑郁症状的共同影响因素。高教育程度可能通过社会期待压力、专业环境 stigma 和健康管理负担间接影响心理状态;非在婚状态可能与社会孤立和 stigma 相关;慢性病管理和家族病史则带来持续情感压力。
与阿富汗、埃塞俄比亚和摩洛哥的研究相比,本研究部分结果一致,但也存在差异,如性别和吸烟在某些研究中显著而在本研究中未进入前几位因素。与孟加拉国其他人群(青少年、大学生、医护人员)研究相比,影响因素存在群体特异性。
研究启示与建议
基于研究发现,建议:1)开展心理健康教育和咨询,解决心理障碍;2)设计专门咨询项目提供情感支持;3)通过教育增强患者对高血压与心理健康关系的认知;4)促进健康行为改变(饮食、运动、戒烟)。将心理健康支持整合到高血压管理中可实现更全面的 healthcare 模式。
研究局限与展望
研究存在回顾性自我报告数据带来的回忆偏倚和低报可能;变量选择受限,未包括睡眠问题、手机使用、体力活动、抗高血压药物使用和血压控制等重要行为因素;横断面设计无法建立因果关系;样本量较小可能影响代表性;ML模型无法提供传统统计的显著性水平和p值。未来研究应前瞻性设计,纳入更多行为变量,扩大样本量,并探索ML模型在临床决策支持中的应用。
结论
孟加拉农村地区约6%高血压患者存在焦虑抑郁症状。XGBoost模型在预测这些症状方面显著优于传统LR模型。教育程度、婚姻状况、CVD和高血压家族史是焦虑抑郁症状的核心影响因素。未来研究应用ML模型可改善早期 detection、支持机制建设和政策制定,为这一脆弱人群提供更好的精神卫生支持。
生物通微信公众号
知名企业招聘