基于机器学习的丙型肝炎病毒感染高风险预测模型开发与验证

【字体: 时间:2025年08月17日 来源:Open Forum Infectious Diseases 3.8

编辑推荐:

  本研究针对美国阿片类药物流行背景下丙型肝炎病毒(HCV)感染率上升且诊断率低的现状,利用OneFlorida+电子健康记录数据库,开发了四种机器学习(ML)算法(包括GBM、DNN等),最终GBM模型以C统计量0.916的优异表现实现高危人群分层,可在临床中实现"筛查6人发现1例阳性"的高效目标,为精准筛查提供新工具。

  

在美国阿片类药物泛滥的阴影下,丙型肝炎病毒(HCV)感染正以惊人的速度蔓延。这种"沉默的杀手"已导致2022年超1.2万例死亡,但约三分之一感染者因无症状而不知情。更棘手的是,虽然直接抗病毒药物治愈率超95%,但传统筛查方法面临资源浪费和敏感话题回避的双重困境。佛罗里达大学药学院(University of Florida College of Pharmacy)的Suk-Chan Jang团队在《Open Forum Infectious Diseases》发表的研究,为这场战役带来了智能化的解决方案。

研究团队创新性地采用机器学习技术,从445,624份电子健康记录中挖掘275个特征,包括HIV检测史、注射吸毒(IDU)记录等关键指标。通过对比弹性网络(EN)、随机森林(RF)、梯度提升机(GBM)和深度神经网络(DNN)四种算法,最终GBM模型以0.916的C统计量胜出,其风险分层系统能在前10%高危人群中捕获75.63%的感染者。这项研究不仅建立了目前最精准的HCV预测模型,更揭示了HIV检测史这一被忽视的强预测因子,为临床实践提供了可嵌入电子病历的智能筛查工具。

主要技术方法

研究基于2016-2023年OneFlorida+全支付方电子健康记录数据库,纳入18-79岁接受HCV抗体/RNA/基因型检测的成人。采用PCORnet通用数据模型整合人口统计学、临床特征等275个预测因子,通过75%-25%划分训练集与验证集。使用SHAP值解释GBM模型特征重要性,并通过十等分风险分层评估临床效用。

研究结果

预测性能比较

GBM模型显著优于其他算法(P<0.0001),在约登指数阈值下实现79.39%敏感性和89.08%特异性。当敏感性设为90%时,特异性仍保持72.32%,每筛查12人可发现1例感染。

风险分层

前10%高风险人群中HCV阳性率达20.06%,是低风险组的28倍。仅筛查前30%人群即可覆盖90.25%的感染者,大幅提升筛查效率。

关键预测因子

SHAP分析显示:HIV检测史(无论结果)是最强预测因子,其次是非西班牙裔、白种人、吸烟史等。值得注意的是,急诊就诊次数与风险正相关,而门诊就诊则呈负相关。

结论与意义

这项研究突破了传统筛查的局限性,首次证实机器学习能有效识别HCV感染高风险人群。其创新性体现在三方面:一是采用实验室确诊结果避免既往研究的误分类;二是发现HIV检测史这一新颖预测指标;三是开发出可实时更新的临床决策支持工具。尽管在亚裔人群中表现稍逊,但该模型为急诊科等关键场景的精准筛查提供了可行方案,有望加速实现WHO 2030年消除HCV的目标。未来需通过前瞻性研究验证其在真实医疗环境中的实施效果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号