撒哈拉以南非洲地区宫颈癌筛查率及其影响因素的机器学习研究

【字体: 时间:2025年05月27日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  为探讨撒哈拉以南非洲地区宫颈癌筛查率低的问题,研究人员基于 10 国 DHS 数据,运用机器学习算法(如 Extra Trees、Random Forest 等)分析筛查率及影响因素。结果显示 Ensemble 模型表现优异,健康访问等为关键预测因子,为优化筛查策略提供数据支撑。

  
宫颈癌是全球女性健康的重大威胁,尤其在低收入和中等收入国家(LMICs),其发病率和死亡率远高于高收入国家。据统计,全球每年约有 66 万新发病例,35 万例死亡,且 94% 的死亡发生在 LMICs。这类地区由于筛查项目实施不足、卫生系统存在多重障碍,宫颈癌负担尤为沉重。传统统计方法难以捕捉影响筛查率的复杂非线性关系,而机器学习(ML)在处理高维数据、挖掘潜在关联方面具有显著优势。在此背景下,来自埃塞俄比亚贡德尔大学等机构的研究人员,针对撒哈拉以南非洲地区女性宫颈癌筛查率及其影响因素展开研究,相关成果发表在《BMC Medical Informatics and Decision Making》。

研究人员利用人口与健康调查(DHS)数据,选取肯尼亚、坦桑尼亚等 10 个撒哈拉以南非洲国家,纳入 25-49 岁女性作为研究对象,分析宫颈癌筛查(包括醋酸目视检查 VIA 和细胞学检查)的影响因素。研究采用合成少数过采样技术(SMOTE)平衡数据,通过网格搜索优化超参数,运用逻辑回归、决策树、随机森林(Random Forest)、K 近邻(KNN)、梯度提升(Gradient Boosting)、自适应增强(AdaBoost)、Extra Trees 等机器学习分类算法进行建模,并以准确率、精确率、召回率和 F1 分数评估模型性能。

研究结果


数据预处理与模型表现


研究初始纳入 75,360 名女性,经数据清洗后最终用于建模的样本为 53,461 例。由于数据存在类别不平衡,通过 SMOTE 技术将少数类过采样,使最终样本量增至 77,814 例,实现类别均衡。模型评估显示,Extra Trees 分类器表现最佳,准确率达 94.13%,精确率 95.76%,召回率 94.12%,F1 分数 93.80%;随机森林(Random Forest)紧随其后,准确率 93.87%,精确率 99.18%。

关键影响因素


通过随机森林算法分析特征重要性,发现健康访问(health visit)、靠近医疗机构(proximity to health care)、使用避孕药具(contraceptive use)、居住在城市地区(urban residence)和媒体暴露(media exposure)是宫颈癌筛查率的重要预测因子。例如,有健康访问史、使用现代避孕方法以及接触过广播或电视的女性,筛查率显著更高。

国家间差异与模型稳健性


不同国家的筛查率差异显著,加蓬(17.4%)和莫桑比克(14.9%)的筛查率相对较高,而贝宁(0.8%)和毛里塔尼亚(0.7%)几乎无人接受筛查。网格搜索优化结果表明,Extra Trees 分类器在参数调整后性能稳定,验证了模型的鲁棒性。

研究结论与讨论


本研究表明,以 Extra Trees 和随机森林为代表的集成学习模型(Ensemble methods)能有效预测非洲女性的宫颈癌筛查率,且在复杂数据集上具有良好的泛化能力。研究识别的关键因素涵盖卫生服务可及性(如健康访问、医疗机构距离)、社会文化因素(如婚姻状况、配偶职业)和媒体宣传等,为制定针对性干预策略提供了科学依据。例如,可通过加强计划生育门诊与宫颈癌筛查的整合、利用大众媒体开展宣传教育、优化农村地区医疗资源配置等方式,提升筛查率,降低宫颈癌负担。

值得注意的是,尽管研究通过数据平衡提升了模型性能,但实际筛查率的不平衡性可能导致模型在真实场景中的应用需进一步验证。此外,研究未纳入个体对筛查的认知、文化信仰等主观因素,未来可通过纵向研究深化因果关系分析。总体而言,该研究为机器学习在公共卫生领域的应用提供了范例,其结果有助于资源有限地区优化宫颈癌防控策略,推动全球癌症防控目标的实现。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号