今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

基于波动特征的COVID-19死亡风险预测:多阶段特征选择与可解释机器学习框架

《BMC Medical Informatics and Decision Making》:Wave-aware mortality prediction in COVID-19: a multi-stage feature selection and explainable machine-learning framework

【字体: 大 中 小 】 时间:2026年06月13日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  摘要背景随着流行病波次的更迭,流行的病毒变异株发生变化、人群免疫力提升以及医疗系统压力波动,住院的COVID-19患者的死亡率也发生了显著变化。这些日益复杂的状况让人担忧,在疫情后期,早期开发的预测模型是否仍能保持准确性。目标构建一种能够识别不同疫情波次特征的机器学习框架,区分那

  

摘要

背景

随着流行病波次的更迭,流行的病毒变异株发生变化、人群免疫力提升以及医疗系统压力波动,住院的COVID-19患者的死亡率也发生了显著变化。这些日益复杂的状况让人担忧,在疫情后期,早期开发的预测模型是否仍能保持准确性。

目标

构建一种能够识别不同疫情波次特征的机器学习框架,区分那些稳定的、与生理状况相关的死亡风险预测因子,以及那些重要性会随疫情波次变化的预测因子。

方法

我们分析了伊朗国家COVID-19登记系统中第2至5波疫情以及第5波之后的732,654例成人住院病例数据。为保留时间序列结构并避免数据泄露,所有的数据预处理、特征选择和模型训练都在每个疫情波次内独立进行。通过三阶段特征选择方法——弹性网收缩、随机森林重要性排序以及方差膨胀因子过滤,我们找到了既稳定又会随时间变化的预测因子。针对逻辑回归、随机森林和深度神经网络模型,我们在各波次对应的独立测试集上评估了其性能,并通过跨波次验证来检测模型的时间稳定性。

结果

在所有疫情波次中,年龄、低氧血症以及严重的慢性疾病这类稳定的生理脆弱因素始终存在。非线性模型的表现优于逻辑回归,其中随机森林在单波次测试中的AUC值可达到0.94,F1值可达0.68。然而,早期开发的模型在应用于后续疫情波次时性能出现明显下降:跨波次测试的AUC值有所降低(例如随机森林的AUC从单波次时的0.87降至第2波到第5波期间的0.80),而F1值则因为严重的校准偏差而大幅下降(例如随机森林的F1值从0.68降至0.13,再到0.07)。SHAP分析显示,后续疫情波次中与疫苗接种相关的变量以及疾病并发症的情况越来越重要。阈值扫描分析则表明,不同模型和不同疫情波次下,实现最佳F1值的概率阈值差异很大,这进一步凸显了时间变化对基于阈值模型的性能的影响。

结论

COVID-19的死亡风险由稳定的生理因素决定,同时还会受到不断变化的病毒变异株、人群免疫力以及医院负荷等动态因素的影响。模型虽然仍能保持一定的预测能力,但F1值却出现下降,这一现象表明静态预测模型很容易受到时间变化的影响。为了在不断变化的疫情环境中保持其临床实用性,采用能够感知时间变化的方法,如重新校准、定期调整模型参数或采用自适应阈值机制可能十分必要。本文提出的这种考虑疫情波次特征、基于特征选择且具备可解释性的机器学习框架,为开发能够应对时间变化的COVID-19及其他快速演变的传染病的预测工具提供了通用思路。

背景

随着流行病波次的更迭,流行的病毒变异株发生变化、人群免疫力提升以及医疗系统压力波动,住院的COVID-19患者的死亡率也发生了显著变化。这些日益复杂的状况让人担忧,在疫情后期,早期开发的预测模型是否仍能保持准确性。

目标

构建一种能够识别不同疫情波次特征的机器学习框架,区分那些稳定的、与生理状况相关的死亡风险预测因子,以及那些重要性会随疫情波次变化的预测因子。

方法

我们分析了伊朗国家COVID-19登记系统中第2至5波疫情以及第5波之后的732,654例成人住院病例数据。为保留时间序列结构并避免数据泄露,所有的数据预处理、特征选择和模型训练都在每个疫情波次内独立进行。通过三阶段特征选择方法——弹性网收缩、随机森林重要性排序以及方差膨胀因子过滤,我们找到了既稳定又会随时间变化的预测因子。针对逻辑回归、随机森林和深度神经网络模型,我们在各波次对应的独立测试集上评估了其性能,并通过跨波次验证来检测模型的时间稳定性。

结果

在所有疫情波次中,年龄、低氧血症以及严重的慢性疾病这类稳定的生理脆弱因素始终存在。非线性模型的表现优于逻辑回归,其中随机森林在单波次测试中的AUC值可达到0.94,F1值可达0.68。然而,早期开发的模型在应用于后续疫情波次时性能出现明显下降:跨波次测试的AUC值有所降低(例如随机森林的AUC从单波次时的0.87降至第2波到第5波期间的0.80),而F1值则因为严重的校准偏差而大幅下降(例如随机森林的F1值从0.68降至0.13,再到0.07)。SHAP分析显示,后续疫情波次中与疫苗接种相关的变量以及疾病并发症的情况越来越重要。阈值扫描分析则表明,不同模型和不同疫情波次下,实现最佳F1值的概率阈值差异很大,这进一步凸显了时间变化对基于阈值模型的性能的影响。

结论

COVID-19的死亡风险由稳定的生理因素决定,同时还会受到不断变化的病毒变异株、人群免疫力以及医院负荷等动态因素的影响。模型虽然仍能保持一定的预测能力,但F1值却出现下降,这一现象表明静态预测模型很容易受到时间变化的影响。为了在不断变化的疫情环境中保持其临床实用性,采用能够感知时间变化的方法,如重新校准、定期调整模型参数或采用自适应阈值机制可能十分必要。本文提出的这种考虑疫情波次特征、基于特征选择且具备可解释性的机器学习框架,为开发能够应对时间变化的COVID-19及其他快速演变的传染病的预测工具提供了通用思路。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:疫情演进|机器学习|特征选择|时间稳定性|预测偏差|动态适应

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号