基于临床和实验室数据的可扩展且稳健 HIV 分类机器学习框架

【字体: 时间:2025年05月29日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 HIV 感染早期诊断及分类难题,研究人员开展基于机器学习的 HIV 分类框架研究。通过 SMOTE、IQR 等处理不平衡数据,结合 RFC 与 DTC 构建投票分类器,实现 89% 准确率,证实 CD4/CD8 等实验室特征的重要性,为 HIV 诊疗提供新方法。

  
艾滋病(AIDS)由人类免疫缺陷病毒(HIV)引起,全球超 3800 万人感染,早期诊断对阻断传播与疾病进展至关重要。传统诊断依赖临床经验与单一指标,面对高维、不平衡的医疗数据时,难以精准捕捉复杂病理特征。如何利用多维度数据实现 HIV 感染的高效分类,成为亟待突破的医学与技术难题。

河北医科大学第四医院等机构的研究团队,针对 HIV 分类中的数据不平衡、特征冗余等挑战,开展了基于机器学习的 HIV 感染分类研究。研究成果发表于《Scientific Reports》,为 HIV 的精准诊断提供了创新框架。

研究采用合成少数过采样技术(SMOTE)平衡感染与未感染样本比例,结合四分位距(IQR)法剔除异常值,提升数据质量。通过递归特征消除(RFE)与中位绝对偏差(MAD)的两步特征选择策略,从 22 项原始特征中筛选出 12 项关键变量,包括 CD4+T 细胞计数(CD40、CD420)、CD8+T 细胞计数(CD80、CD820)等核心实验室指标。

在模型构建阶段,研究对比了随机森林分类器(RFC)、决策树分类器(DTC)等 10 种机器学习模型,发现 RFC 与 DTC 性能最优。通过集成两者构建的投票分类器,在 50,000 例样本中实现了 89% 的分类准确率,精确率 90.84%,召回率 87.63%,F1 分数 98.21%。跨数据集验证显示,模型在 2,139 至 72,139 例不同规模样本中均保持稳定性能,验证了其鲁棒性与可扩展性。

关键技术方法


  1. 数据预处理:SMOTE 过采样解决类不平衡(感染与未感染样本比例从约 1:2 平衡至 1:1),IQR 法识别并剔除 6 项高异常特征的离群值,Min-Max 归一化统一特征尺度。
  2. 特征选择:RFE 结合逻辑回归递归剔除次要特征,MAD 评估特征变异性,最终保留 12 项关键特征,涵盖免疫指标、治疗史、基线生理数据。
  3. 模型构建:基于 RFC 与 DTC 构建硬投票集成模型,利用两者在非线性特征交互与决策边界捕捉上的互补性提升分类效能。

研究结果


  1. 数据预处理效能:SMOTE 相比随机过采样、ADASYN 等方法,使分类准确率从基线 84.69% 提升至 89%,证实其在生成有效少数类样本中的优势。
  2. 特征重要性分析:树模型与逻辑回归均显示 CD40、CD420、治疗前抗病毒史(preanti)、观察时间(time)为核心特征,CD4+/CD8+细胞比值与疾病进展密切相关。
  3. 模型泛化能力:在仅使用 CD4+、CD8+细胞计数的场景下,模型仍实现 87% 准确率,表明核心实验室指标的独立诊断价值。跨 5 种数据集的验证显示,模型准确率波动小于 3%,证实其对不同数据分布的适应性。
  4. 临床适用性评估:在资源受限场景下,基于 4 项实验室特征的简化模型与全特征模型性能接近,为基层医疗提供了低成本诊断方案。

结论与讨论


本研究构建的机器学习框架通过数据平衡、特征降维与集成建模的协同优化,显著提升了 HIV 感染分类的准确性与稳定性。核心创新点包括:

  • 证实 SMOTE 与 IQR 在医疗数据预处理中的有效性,为解决类不平衡问题提供了标准化流程。
  • 揭示 CD4+、CD8+细胞计数等实验室指标在 HIV 分类中的决定性作用,与临床监测需求高度契合。
  • 投票分类器的设计兼顾模型性能与计算效率,在保持 89% 准确率的同时,推理时间控制在 0.4 秒内,适合实时诊断部署。

尽管研究基于历史数据集,但其提出的方法论为整合电子健康记录(EHR)、开发实时诊断工具奠定了基础。未来若结合病毒载量、炎症因子等动态指标,有望进一步提升模型灵敏度。该框架的可扩展性使其在资源匮乏地区具有重要应用潜力,通过嵌入移动医疗(mHealth)系统,可助力实现 “95-95-95” 全球抗艾目标,为降低 HIV 发病率与病死率提供技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号