基于机器学习模型的巴西南部成人牙科服务使用预测:聚焦性别与种族公平性研究

【字体: 时间:2025年06月22日 来源:Journal of Dentistry 4.8

编辑推荐:

  本研究针对巴西成人牙科服务利用不平等问题,采用CatBoost等5种机器学习算法构建预测模型(AUC=0.77),首次揭示模型在混合种族群体("pardos")中存在显著预测偏差(AUC=0.57)。通过SHAP值分析锁定"末次就诊时间"等关键特征,为优化公共卫生资源分配提供数据支持,同时警示AI医疗中的算法公平性风险。

  

全球口腔健康领域正面临严峻挑战——世界卫生组织数据显示,口腔疾病困扰着35亿人,而低收入国家人均牙科支出仅为高收入国家的1/500。这种悬殊差距在巴西尤为突出:2019年全国调查显示,仅53.2%的成年人定期看牙医,低收入群体就诊率更低。更令人担忧的是,现有医疗资源分配系统难以精准识别高危人群,传统统计方法无法有效捕捉复杂的社会决定因素。在此背景下,巴西的研究团队在《Journal of Dentistry》发表了一项开创性研究,首次将机器学习技术应用于拉丁美洲牙科服务利用预测,并系统评估了算法在不同人口亚组中的表现差异。

研究团队采用前瞻性队列设计,数据源自"EAI Pelotas?"项目,包含3,461名18岁以上成年人的47项基线特征(含社会人口学、行为学和健康指标)。通过10折交叉验证优化超参数,对比测试了梯度提升(Gradient Boosting)、XGBoost、LightGBM、CatBoost和人工神经网络(Artificial Neural Network)五种算法性能。采用SHAP值进行特征重要性分析,并运用AIF360工具包中的Reweighing算法校正种族偏差。

3. 结果
3.1 模型性能
CatBoost在测试集表现最优(AUC=0.77,95%CI[0.73-0.80]),较仅用"末次就诊时间"的逻辑回归(AUC=0.69)显著提升。精简模型保留5个关键预测因子(末次就诊时间、教育程度、就诊机构类型、年龄和性别)后仍保持AUC=0.76。

3.2 公平性分析
模型在性别间表现均衡(女性AUC=0.76 vs 男性AUC=0.78),但种族差异显著:黑人群体AUC达0.82,而混血群体("pardos")骤降至0.57。即便采用偏差校正算法,混血群体的AUC仍低于其他种族0.20个点。

3.3 特征重要性
SHAP分析显示,末次就诊时间(<6个月就诊者76.9%会复诊)、教育程度(大学学历者就诊率67.8%)和私立机构就诊史是三大最强预测因子。值得注意的是,社会经济地位(ABEP评分)的预测贡献度低于预期。

4. 讨论
该研究揭示了机器学习在公共卫生领域的双重性:一方面,CatBoost模型展现出优秀的整体预测能力,其AUC值超越既往美国同类研究;另一方面,算法在混血群体中的"失明"现象(AUC=0.57接近随机猜测)暴露出严峻的公平性缺陷。这种差异可能源于样本失衡(混血者仅占6%)或未测量的结构性歧视因素。

从临床实践角度看,研究确认了"就诊惯性"现象——近期就诊史是最强预测因子,这支持了"连续性护理"理念在口腔健康中的重要性。教育程度的突出影响则提示,健康素养干预可能比单纯扩大保险覆盖更能改善服务利用。

该研究的创新价值在于:首次验证机器学习在发展中国家牙科预测的适用性;建立包含47维特征的预测框架;采用TRIPOD+AI标准规范报告流程。局限性包括COVID-19疫情期间数据采集的时效性影响,以及未能区分预防性与治疗性就诊的差异。

这项研究为公共卫生决策者提供了重要启示:AI工具在资源优化方面潜力巨大,但必须配套开发公平性监测系统。未来研究应扩大少数族裔样本量,探索迁移学习(Transfer Learning)在跨种族应用中的可行性,并开发能同时兼顾精度与公平的新型算法架构。正如作者强调,在口腔健康领域,"算法公平不应是事后补救,而应是模型设计的起点"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号