基于机器学习的孟加拉国慢性病患者失眠症预测模型与风险因素研究

【字体: 时间:2025年10月08日 来源:Nature and Science of Sleep 3.4

编辑推荐:

  本综述系统评估了孟加拉国慢性病患者失眠的患病率及相关风险因素,创新性地采用六种机器学习模型(包括KNN、RF、SVM、GBM、XGBoost和CatBoost)进行失眠预测分析。研究发现失眠患病率达41.3%,CatBoost模型表现最优(AUC 77.27%),特征重要性分析显示心理健康需求满足情况和夜间睡眠时长是最强预测因子。研究为慢性病患者睡眠障碍的早期筛查提供了数据支持和算法框架。

  
研究背景与意义
失眠症作为一种全球性公共卫生问题,在慢性病患者群体中表现出显著的共病特征。研究表明失眠与慢性疾病存在双向关联:慢性疾病可通过疼痛、药物副作用和心理困扰等机制破坏睡眠结构,而睡眠障碍又会加剧炎症反应、内分泌失调和自主神经功能紊乱,形成恶性循环。在孟加拉国等发展中国家,慢性疾病负担日益加重,但针对特定人群的睡眠健康研究仍显不足。机器学习技术在医疗领域的应用为大规模人群的失眠风险预测提供了新的技术路径。
研究方法设计
本研究采用横断面调查设计,于2024年5月至11月期间从达卡和吉大港的医疗机构招募1,222名成年慢性病患者。纳入标准包括:年龄≥18岁、医师确诊的慢性疾病(病程≥3个月)、涵盖呼吸系统、胃肠、泌尿、皮肤、生殖、肌肉骨骼、内分泌、心血管、血液、神经等11类疾病体系。使用失眠严重程度指数量表(ISI-7)进行评估,总分≥8分判定为失眠症。
机器学习分析采用Python编程环境,将数据集按8:2比例划分为训练集与测试集。为处理类别不平衡问题,训练阶段应用合成少数类过采样技术(SMOTE)。评估的六种分类器包括:K最近邻(KNN)、随机森林(RF)、支持向量机(SVM)、梯度提升机(GBM)、极端梯度提升(XGBoost)和类别提升(CatBoost)。采用5折交叉验证确保模型稳健性,通过准确率、精确度、F1分数、对数损失和受试者工作特征曲线下面积(AUC-ROC)等指标综合评价性能。
人群特征与患病率
研究人群平均年龄35.29±12.87岁,男性占66.4%,已婚者60.9%,城市居民59.7%,53.2%具有学士及以上学历。体质指数(BMI)平均为23.86±3.68 kg/m2,64.0%处于正常范围(18.50–24.99 kg/m2)。生活方式方面,33.0%近期吸烟,18.7%使用无烟烟草,4.2%和6.7%分别有酒精和物质使用史。85.2%缺乏持续性体育锻炼,仅有24.0%保持7–9小时夜间睡眠。
失眠总体患病率为41.3%,其中女性(46.7%)、>45岁人群(50.9%)、已婚者(44.6%)、仅接受初等教育者(52.3%)、联合家庭(55.6%)和城市居民(48.2%)的失眠率显著较高。72.5%参与者未感知到心理健康需求,85.9%报告心理健康需求未得到满足。
风险与保护因素分析
多变量逻辑回归显示女性失眠风险是男性的1.71倍(95% CI: 1.28–2.28)。联合家庭结构(OR=1.73)、城市居住(OR=1.59)显著增加风险。无烟烟草使用(OR=1.73)和物质使用(OR=2.66)是重要行为风险因素,而规律体育锻炼呈现保护效应(OR=0.66)。
睡眠行为方面,日间小睡>60分钟增加1.70倍风险,维持7–9小时夜间睡眠则降低59%风险(OR=0.41)。疾病特征显示,26–40岁和>40岁发病患者的失眠风险分别是早发(18–25岁)患者的1.45倍和2.17倍。泌尿系统疾病患者风险显著降低(OR=0.27),而其他慢性病(含慢性失眠、抑郁等)风险增加3.19倍。心理健康服务需求得到充分满足者失眠风险降低88%(OR=0.12)。
机器学习模型性能
特征选择通过CatBoost的SHAP值和XGBoost的增益分数双重验证,将初始38个预测因子缩减至18个核心特征。心理健康需求满足状况(增益值9.28)和夜间睡眠时长(增益值3.78)被一致确定为最强预测因子。
模型比较显示:CatBoost综合性能最优(准确率71.67%,AUC 77.27%,F1分数71.23%,对数损失0.5623);随机森林(准确率71.69%,AUC 76.15%)和支持向量机(AUC 76.50%)紧随其后;KNN表现相对较弱(AUC 69.02%,对数损失1.8698)。混淆矩阵分析表明,CatBoost对失眠病例的识别灵敏度达74%,特异度70%。
机制探讨与学术对话
研究发现的高失眠患病率(41.3%)与埃塞俄比亚疫情期间慢性病患者研究(39.3%)高度一致,但显著高于一般人群的22.0%,证实慢性疾病患者的睡眠脆弱性。性别差异可能与女性特有的激素波动、情绪障碍易感性和社会角色压力相关。联合家庭的高风险可能源于家庭冲突和空间拥挤对睡眠环境的干扰。
城市环境的风险因素包括绿色空间缺乏、社会应激和职业不稳定性。物质使用通过扰乱中脑边缘多巴胺通路和生物节律影响睡眠,而体育锻炼则通过促进褪黑素分泌和体温调节改善睡眠质量。日间小睡的"双刃剑"效应值得关注:≤60分钟可能改善睡眠效率,>60分钟则通过减少睡眠驱力破坏夜间睡眠。
泌尿疾病患者的低风险发现与常规认知相悖,可能与其常用药物(如抗胆碱能药奥昔布宁、索利那新和α阻滞剂坦索罗辛)的镇静副作用相关,需进一步研究验证。心理健康服务的重要性在机器学习特征选择中得到凸显,符合"睡眠-心理-生理"交互模型的理论框架。
研究优势与局限
本研究的主要优势包括:1)采用医师确诊的慢性病诊断标准;2)使用经过验证的评估工具(ISI-7量表Cronbach's α=0.921);3)综合传统统计与机器学习方法;4)应用SMOTE处理类别不平衡;5)通过SHAP值增强模型可解释性。
局限在于横断面设计难以确立因果关系,便利抽样可能限制结果外推性,自我报告数据存在回忆偏差和社会期望偏差。未测量的混杂因素(如抑郁、焦虑症状)可能影响结果,且特定慢性病的样本量不足导致疾病类别合并。未来需开展纵向研究,结合客观睡眠监测(如actigraphy),在更广泛地域验证模型泛化能力。
实践意义与展望
研究成果支持在慢性病管理中整合睡眠健康筛查,特别关注女性、城市居民和晚发患者等高危群体。建议实施:1)物质使用戒断计划;2)睡眠卫生教育;3)体育锻炼促进;4)心理健康服务接入优化。机器学习模型(尤其CatBoost)可作为初级保健场景的失眠风险预警工具。
未来研究应扩大疾病特异性分析,探索深度学习模型的应用,并开发基于移动健康的实时监测干预系统。通过解决睡眠障碍这一可修改风险因素,有望改善慢性病患者的整体预后和生活质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号