基于机器学习的社区主动识别与早期检测:面向资源有限地区的靶向HIV筛查新策略

【字体: 时间:2025年07月27日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对资源有限地区HIV早期检测面临的困境(如社会污名化、检测可及性低),开发了PREDICT-HIV机器学习模型。通过分析伊朗设拉子地区39,295例人群的 demographic(人口统计学)和 lifestyle(生活方式)数据,研究团队采用XGBoost算法识别出 drug injection(注射吸毒)、age(年龄)等5个关键预测因子,模型AUC达0.84。该成果为优化筛查资源配置提供了AI驱动解决方案,配套开发的Django框架Web应用(http://hiv.eclinichub.com/)可实现社区级精准防控。

  

在全球范围内,HIV/AIDS仍然是公共卫生领域的重大挑战,特别是在中东和北非(MENA)地区,其发病率不降反升的态势与全球防控进展形成鲜明对比。伊朗作为UNAIDS(联合国艾滋病规划署)重点关注的"快速通道"国家,仅有不到10%的成年人接受过HIV检测,反映出传统筛查模式在资源有限地区面临的困境——社会污名化、医疗基础设施不足以及风险认知低下形成多重屏障,导致大量感染者难以及时确诊。

针对这一难题,伊斯法罕医科大学(Isfahan University of Medical Sciences)联合巴塞罗那理工大学的研究团队开展了一项突破性研究。他们创新性地将机器学习技术应用于社区级HIV筛查,开发出名为PREDICT-HIV的预测系统。这项发表在《Scientific Reports》的研究,通过分析伊朗设拉子地区2001-2023年间39,295名18岁以上居民的流行病学数据,构建了一套基于日常可获取指标的精准筛查工具。

研究团队采用了几项关键技术:首先运用MICE(多重插补链式方程)处理最高达54%缺失值的"Condom use"等变量;随后采用分层五折交叉验证训练XGBoost(极端梯度提升)模型,该算法因其处理表格数据的优异性能和正则化特性被选用;最后通过SHAP(沙普利加性解释)方法解析特征重要性。所有数据均来自设拉子大学医学科学院的HIV/AIDS登记系统,经伦理委员会批准(IR.MUI.DHMT.REC.1403006)。

描述性统计结果
分析显示HIV阳性人群(占9.3%)具有显著特征:年龄集中在40-50岁(OR=40.39)、女性占比77.2%、失业率50.7%。行为学数据显示,注射吸毒(OR=22.12)和配偶HIV阳性史(OR=9.04)是最强风险因素,监狱经历者感染风险提升7.8倍。这些发现为高风险人群画像提供了量化依据。

分类结果
XGBoost模型展现出卓越性能:灵敏度0.80(95%CI 0.79-0.80)、特异度0.90(95%CI 0.89-0.90),AUC达0.839。值得注意的是,模型对阴性样本的识别能力尤为突出(NPV=0.98),这意味着在社区初筛中可有效减少不必要的确证检测。SHAP分析可视化呈现了各特征贡献度,其中注射吸毒的mean|SHAP|值最高(0.49),与单变量分析结果相互印证。

讨论与意义
这项研究实现了三个重要突破:其一,首次在伊朗构建了基于机器学习的HIV社区筛查工具,其性能(AUC 0.84)优于巴基斯坦同类研究(AUC 0.76);其二,开发的Web应用突破了传统检测的地理限制,使偏远地区居民能通过智能设备自主评估风险;其三,识别出"配偶HIV阳性史"这一容易被忽视的风险因子,为"伴侣协同检测"策略提供了新依据。

研究也存在一定局限:数据仅来自单一城市,且依赖自我报告的行为数据可能产生偏倚。作者建议未来整合 socioeconomic(社会经济)变量,并在其他中东国家进行外部验证。尽管如此,这项工作仍为资源有限地区提供了一种可扩展的解决方案——通过将AI模型嵌入现有mHealth(移动医疗)平台,有望使HIV筛查覆盖率提升至UNAIDS设定的95%目标,最终实现"三个90%"防治愿景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号