机器学习揭示撒哈拉以南非洲女性对HIV暴露前预防的认知与态度:基于多国调查数据的驱动因素分析
《BMC Infectious Diseases》:Machine learning to examine adequate awareness and positive perception of HIV pre-exposure prophylaxis among women in sub-Saharan Africa: evidence from 2021-2024 surveys
【字体:
大
中
小
】
时间:2025年11月16日
来源:BMC Infectious Diseases 3
编辑推荐:
本研究针对撒哈拉以南非洲地区女性对HIV暴露前预防(PrEP)认知不足的问题,研究人员利用2021-2024年人口调查数据,应用CatBoost等五种机器学习算法分析123,132名女性的PrEP认知情况。研究发现仅14.9%的女性具有充分认知,且存在显著国家差异(5.6%-73.6%),通过SHAP值识别出年龄、教育、媒体接触等关键预测因子,为制定精准干预策略提供了数据支持。
在艾滋病(HIV/AIDS)仍然是全球重大公共卫生挑战的今天,撒哈拉以南非洲(SSA)地区承受着尤为沉重的疾病负担。该地区集中了全球约67%的HIV感染者,2024年新增感染病例中女性占比高达63%,其中15-24岁年轻女性每周新增感染达3,300例。尽管暴露前预防(PrEP)被证明可将性传播HIV风险降低高达99%,但该地区女性对PrEP的认知和接受度仍然有限,严重制约了这一有效预防措施的推广使用。
传统研究多局限于特定国家,且主要依赖线性统计方法,难以捕捉社会经济、行为因素与结构障碍之间复杂的交互作用。为突破这一局限,Terefe等人开展了一项创新研究,通过机器学习技术分析多国人口调查数据,系统探索影响SSA地区女性PrEP认知的关键因素。该研究近期发表于《BMC Infectious Diseases》杂志,为优化HIV预防策略提供了新的见解。
研究团队采用横断面设计,汇集了2021-2024年间八个SSA国家(布基纳法索、刚果民主共和国、科特迪瓦、加纳、肯尼亚、莱索托、塞内加尔和坦桑尼亚)的人口与健康调查(DHS)数据,最终纳入123,132名HIV阴性女性的加权样本。主要结局变量是“充分的PrEP认知和积极态度”,定义为既听说过PrEP又认可其每日使用。
在技术方法上,研究团队运用了多种机器学习关键技术:通过递归特征消除(RFE)和相关性分析进行特征选择;采用五种监督学习算法(KNN、XGBoost、CatBoost、LightGBM和梯度提升)进行模型训练与比较;使用SHAP(Shapley Additive Explanations)值进行模型解释;并对缺失数据采用多重插补处理,确保分析可靠性。
研究发现,SSA地区女性对PrEP的充分认知率总体较低,仅为14.9%,但各国间存在显著差异。莱索托的认知率最高(73.57%),肯尼亚次之(34.29%),而坦桑尼亚(5.61%)、布基纳法索(6.43%)和刚果民主共和国(6.55%)的认知水平则显著偏低。这种巨大的国家间差异提示PrEP推广策略需要根据各国具体情况进行定制化调整。
在五种机器学习算法的比较中,CatBoost表现最优,准确率达0.91,F1分数为0.88。XGBoost紧随其后,准确率为0.89,F1分数0.86。KNN、LightGBM和梯度提升模型性能相对较低。这一结果证实了基于梯度提升的算法在处理复杂公共卫生数据方面的优势。
SHAP分析揭示了影响PrEP认知的最重要预测因子。年龄是最关键因素,15-24岁年轻女性的认知水平普遍较低。教育程度、媒体接触频率、医疗就诊次数和婚姻状况也是重要预测因子。此外,居住地(城乡差异)、财富状况和职业状态等因素也显示出显著影响。
研究进一步通过特征重要性排序可视化展示了各预测因子的相对权重。医疗就诊频率、教育水平和媒体接触等与信息获取密切相关的因素排名靠前,而生育史、伴侣特征等因素影响相对较小。这一发现为设计针对性干预措施提供了明确方向。
该研究通过机器学习方法证实,SSA地区女性对PrEP的认知整体不足且分布不均,年轻、低教育水平、农村居住和医疗接触有限的女性构成认知薄弱的关键群体。这一发现与先前研究一致,但通过SHAP分析提供了更细致的因素重要性排序和影响方向解读。
研究结果具有重要政策意义。针对认知率低于6%的国家(如坦桑尼亚),亟需开展基础性宣传教育,特别是面向农村青年女性。而在认知率中等国家(如肯尼亚),干预重点可转向解决实际使用障碍,如 stigma(污名化)、可及性和成本问题。CatBoost和XGBoost等算法的优异表现为将机器学习整合入国家HIV监测系统提供了依据,可实现风险人群的动态识别和资源优化配置。
研究的创新点在于首次大规模应用多种机器学习算法于多国PrEP认知研究,并通过SHAP值增强了模型的可解释性。然而,横断面设计限制因果推断,自我报告数据可能存在偏倚,且未包含社区干预暴露等潜在重要变量,这些局限为未来研究指明了方向。
综上所述,这项研究证明了机器学习在识别HIV预防关键决定因素方面的价值,为SSA地区制定精准、高效的PrEP推广策略提供了科学依据。通过将先进数据分析与强化卫生系统和社区参与相结合,有望加速PrEP的普及应用,推动艾滋病防控进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号