基于机器学习的低收入地区 HIV 治疗随访丢失预测模型构建

【字体: 时间:2025年05月20日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  在 HIV 防治中,随访丢失(LTFU)是重大挑战。研究人员利用埃塞俄比亚 8 家医疗机构的成人 HIV 患者电子病历(EMRs),运用机器学习开发 LTFU 预测模型。随机森林算法表现最优,具临床实用价值,为精准干预提供依据。

  
艾滋病(HIV)的防治至今仍是全球公共卫生领域的重大议题。尽管国际社会立下了在 2030 年前终结艾滋病的目标,但在资源匮乏地区,患者接受治疗后随访丢失(Loss to Follow-Up, LTFU)的问题却如同一道难以跨越的鸿沟。LTFU 指的是患者未按计划前往 HIV 治疗或抗逆转录病毒治疗(Antiretroviral Therapy, ART)的预约时间超过 28 天,这一现象在南非、坦桑尼亚、肯尼亚、埃塞俄比亚等国家的发生率分别高达 23.4%、57.4%、27.2%、15.17%。随访丢失不仅会导致患者病毒载量无法得到有效抑制,增加发病和死亡的风险,还会在社区内造成 HIV 的持续传播,严重阻碍艾滋病防控的整体进程。特别是在患者开始 ART 治疗的前五年,由于身体和心理等多方面的原因,他们更容易中断治疗,因此,如何准确识别这一阶段有随访丢失风险的患者,并采取有效的干预措施,成为了亟待解决的问题。

来自埃塞俄比亚亚的斯亚贝巴大学的研究人员开展了一项具有重要现实意义的研究,相关成果发表在《BMC Medical Informatics and Decision Making》上。

研究人员采用回顾性研究设计,从埃塞俄比亚 8 家随机选取的高病例负荷医疗机构中,收集了 2019 年 7 月至 2024 年 4 月期间新纳入 ART 治疗的成年 HIV 阳性患者的电子病历(Electronic Medical Records, EMRs)数据,共计 3720 例,其中 2575 例(69.2%)为未随访丢失患者,1145 例(30.8%)为随访丢失患者。研究运用了 6 种监督机器学习分类算法,包括 J48 决策树、随机森林、K 近邻、支持向量机、逻辑回归和朴素贝叶斯,通过 Weka 3.8.6 软件进行训练,并采用 10 折交叉验证评估模型性能,同时使用校正重采样 t 检验比较算法性能,利用决策曲线分析(Decision Curve Analysis, DCA)评估模型的临床效用。

患者特征与数据处理


研究对象中,女性占比 60.5%,平均年龄 39 岁,14.7% 的患者地址信息不完整(标记为 “黄色”),36.4% 的患者处于治疗的前 12 个月,30.8% 的患者结核预防治疗(Tuberculosis Preventive Therapy, TPT)状态为 “青铜 / 银色”(未开始或未完成),67.7% 的患者纳入了预约间隔模型(Appointment Spacing Model, ASM)或 3 个月多月配药(3-month Multimonth Dispensing, 3MMD)的差异化服务模式(Differentiated Service Delivery, DSD),30.3% 的患者治疗依从性差,36.8% 的患者存在营养不良,36.2% 的患者处于世界卫生组织临床分期(WHO Stage)3 或 4 期。

特征选择与模型构建


通过多变量逻辑回归分析和机器学习特征选择流程,确定了 6 个与 LTFU 相关的强预测因子,分别是差异化服务模式(DSD)、治疗依从性、结核预防治疗(TPT)状态、随访时间、营养状况和地址信息。针对数据不平衡问题,研究人员采用了类平衡器和合成少数过采样技术(Synthetic Minority Oversampling Technique, SMOTE)进行处理,使少数类样本得到有效补充。

模型性能评估


在 6 种算法中,随机森林算法表现出了卓越的性能,其准确率为 84.2%,灵敏度为 82.4%,特异度为 85.7%,精确度为 83.7%,F1 分数为 83.1%,受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC)为 89.5%。决策曲线分析显示,当阈值概率在 10% 及以上时,该模型的净效益优于 “全干预” 和 “无干预” 策略,具有较高的临床实用价值。

关联规则挖掘与模型解释


通过 Apriori 算法挖掘关联规则,发现 TPT 状态、DSD 模式、治疗依从性和随访时间与 LTFU 密切相关。例如,TPT 状态为 “青铜 / 银色” 且未纳入 DSD 模式的患者,随访丢失的可能性高达 93%;未纳入 DSD 模式且治疗依从性差的患者,随访丢失的可能性为 92%。这些规则进一步揭示了各因素之间的相互作用对 LTFU 的影响。

这项研究成功开发了一种基于机器学习的预测模型,能够有效评估低收入地区 HIV 治疗患者的随访丢失风险。随机森林算法构建的模型不仅具有较高的准确性和判别性能,还通过决策曲线分析证明了其在临床实践中的实用价值。研究识别出的 6 个关键预测因子,为临床医生制定个性化的干预措施提供了明确的方向,例如加强对地址信息不完整、治疗依从性差、未完成 TPT 治疗等高危患者的随访管理,优化 DSD 模式的应用等。

然而,研究也存在一定的局限性。例如,对年龄、随访时间等连续变量进行了分类处理,可能导致信息丢失;将 DSD 模式的多个子类别合并为 broader 类别,可能忽略了某些细节差异;模型仅在内部数据中进行了验证,其外部有效性和在不同人群中的适用性仍需进一步研究。尽管如此,该研究为 HIV 治疗中的随访管理提供了一种创新的、数据驱动的解决方案,为全球范围内提高 HIV 患者的治疗保留率、推进艾滋病防控目标的实现迈出了重要一步。未来,通过在更多样化的人群中进行外部验证和模型优化,这一预测工具有望在临床实践中得到更广泛的应用,为终结艾滋病的征程贡献力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号