可解释AI揭示撒哈拉以南非洲男性烟草使用预测因子全景图:基于机器学习的社会决定因素分析

【字体: 时间:2025年07月10日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对撒哈拉以南非洲(SSA)男性烟草使用率快速上升的公共卫生危机,利用20国147,466名男性的健康调查数据,结合XGBoost等6种机器学习算法和SHAP可解释性分析,首次构建高精度预测模型(准确率98%,AUC 0.97)。揭示年龄、教育、财富指数等10项核心社会决定因素,并发现互联网使用是新型保护因子。为制定靶向干预策略提供数据驱动依据,凸显机器学习在公共卫生政策中的转化价值。

  

论文解读

撒哈拉以南非洲(SSA)正面临日益严峻的烟草流行威胁,该地区烟草消费增速居全球首位,预计到2040年将达流行水平。更严峻的是,全球80%的烟草使用者集中在低收入国家,而SSA地区薄弱的监管体系、低廉的烟草价格和有限的医疗资源进一步加剧了危机。烟草每年导致800万人死亡,造成1.5万亿美元经济损失,但针对SSA男性(吸烟率高达47%)的针对性研究仍显不足。传统统计方法难以捕捉多因素交互作用,而机器学习凭借处理高维数据和非线性关系的优势,为破解这一难题提供了新路径。

贡达尔大学(University of Gondar)公共卫生研究所的研究团队在《Scientific Reports》发表突破性研究,整合2018-2023年20个SSA国家的标准化人口健康调查(DHS)数据,首次采用可解释机器学习框架系统解析男性烟草使用的预测因子。研究团队通过分层整群抽样纳入147,466名15-64岁男性,利用STATA 17进行数据清洗,Python 3.9构建预测模型。关键技术包括:

  1. 类平衡处理:采用合成少数类过采样技术(SMOTE)解决原始数据不平衡问题(非吸烟者84.6% vs 吸烟者15.4%)
  2. 特征优化:递归特征消除(RFE)结合十倍交叉验证筛选关键变量
  3. 算法比较:测试决策树、随机森林(RF)、XGBoost等6类模型性能
  4. 可解释分析:应用SHapley加性解释(SHAP)解码预测机制

核心发现

烟草使用空间分布

  • 区域总患病率为14.73%(95% CI: 11.26-18.19),坦桑尼亚(17.0%)、贝宁(16.8%)、塞内加尔(16.2%)位居前三
  • 热点聚集区覆盖莫桑比克、赞比亚、马里等9国(图3)

机器学习模型性能

  • XGBoost在平衡数据上表现最优(表4):
    • 准确率98% | AUC 0.97 | 精确率95%
    • 显著优于逻辑回归(AUC 0.53)等基线模型

关键预测因子解析

  1. 人口学特征:45岁以上男性风险增加(SHAP值+0.18)
  2. 社会经济因素
    • 未使用互联网者风险升高(OR=1.22)
    • 贫困人群风险是富裕人群1.7倍
  3. 行为与教育
    • 首次性行为≤19岁增加风险
    • 中学以下学历者风险提升40%
  4. 空间交互规则
    • 农村居民+无互联网+社区贫困三重暴露时吸烟概率达24.3%(提升度1.22)

公共卫生意义

本研究通过可解释机器学习首次揭示:

  1. 互联网接入作为新型保护因子,可能通过健康信息获取途径降低吸烟风险
  2. 贫困与教育缺失的协同效应加剧烟草使用不平等
  3. 性行为早期化(≤19岁)是潜在风险警示指标

研究结果为SSA地区精准控烟提供三大行动路径:

  • 靶向干预:针对农村贫困社区部署移动健康(mHealth)教育项目
  • 政策杠杆:将互联网普及纳入烟草控制可持续发展目标(SDGs)
  • 监测创新:建立机器学习驱动的实时风险预警系统

该成果不仅为SSA地区应对烟草流行提供了数据驱动的决策工具,更开创了可解释人工智能在复杂社会健康问题中应用的新范式。正如作者Mequannent Sharew Melaku所述:"SHAP框架使我们超越黑箱预测,真正理解驱动烟草使用的社会机制——这是设计有效干预的第一步。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号