编辑推荐:
在 COVID-19 研究中,机器学习模型预测存在准确性不一致、受时间性影响等问题。研究人员基于巴西数据,用随机森林和逻辑回归构建模型,结合 Shapley 值研究。结果发现时间性影响感染预测模型,对死亡率模型影响小。该研究为优化模型提供方向1212。
新冠疫情给全球带来了巨大冲击,世界卫生组织宣布其公共卫生紧急状态结束时,全球已报告超 7.73 亿病例,夺走了数百万人的生命 。新冠病毒(SARS-CoV-2)不断变异,出现了阿尔法(Alpha,B.1.1.7)、德尔塔(Delta,B.1.617.2)、奥密克戎(Omicron,B.1.1.529)等多种变异株,它们在不同阶段占据主导地位,且具有不同的流行病学特征和症状
4。
为了应对疫情,人们构建了许多机器学习模型来预测 COVID-19 的感染和死亡率,以辅助公共卫生决策。然而,这些模型存在诸多问题。一方面,模型的稳健性和可解释性较差,不同研究基于相似特征得出的感染和死亡率预测结果却不一致。例如,关于哪些人群更容易感染和死亡,不同研究的结论相互矛盾。另一方面,时间性这一混杂因素也可能影响模型性能。由于不同变异株在不同时间传播,基于某一时期数据训练的模型,对其他时期数据的预测准确性可能会降低。但现有文献缺乏对这些问题的深入分析,无法清晰解释模型在不同情境下预测性能差异的原因5。
为了解决这些问题,西安交通利物浦大学药学院、浙江工业大学计算机科学与技术学院等机构的研究人员开展了一项研究。该研究成果发表在《BMC Medical Research Methodology》上3。
研究人员使用了来自巴西圣埃斯皮里图州 2020 - 2022 年的 COVID-19 监测数据集,从中筛选出 1,061,709 例个体记录用于感染模型训练,298,292 例个体记录用于死亡率模型训练。在研究中,主要用到了以下关键技术方法:
- 构建预测模型:利用逻辑回归(LR)和随机森林(RF)算法,基于 20 个不同特征构建了 COVID-19 感染和死亡率的预测模型。为确保数据集平衡,对数据进行了调整,并通过计算方差膨胀因子(VIF)和广义方差膨胀因子(GVIF)评估变量间的多重共线性。
- 模型性能评估:采用蒙特卡罗交叉验证(MCCV)方法评估模型性能,该方法通过多次随机数据采样和模型训练,能更全面地评估模型表现。
- 计算 Shapley 值:运用 Shapley 值(SHapley Additive exPlanations,SHAP)量化每个特征对模型预测的贡献。Shapley 值是一种基于博弈论的概念,将每个特征视为影响模型预测的 “参与者”,通过复杂计算得出每个特征的边际贡献,从而评估其重要性6。
研究结果如下:
- COVID-19 感染模型:时间间隔对感染模型的预测准确性有负面影响。以 2021 年测试集为例,逻辑回归模型使用同年训练集比使用 2020 年训练集准确率提高 0.0114,随机森林模型提高 0.0173;2022 年测试集使用同年训练集对比 2021 年训练集,逻辑回归模型准确率提高 0.0425,随机森林模型提高 0.0581。通过 Shapley 值分析发现,不同年份影响感染预测的重要特征不同。2020 年排名前五的重要特征包括发烧(是 / 否)、年龄等;2021 年为年龄、发烧等;2022 年则是咳嗽(是 / 否)、年龄等。这表明 COVID-19 感染在不同年份可能有不同症状,且缺乏固定的主导特征,导致模型预测准确性较低且稳健性差78。
- COVID-19 死亡率模型:时间间隔对死亡率模型预测准确性的影响较小。以 2021 年测试集为例,逻辑回归模型使用同年训练集比使用 2020 年训练集准确率提高 0.015,随机森林模型提高 0.0027;2022 年测试集使用同年训练集对比 2021 年训练集,逻辑回归模型准确率提高 0.013,随机森林模型提高 0.0141。Shapley 值分析显示,2020 - 2022 年,年龄、住院(是 / 否)、呼吸窘迫(是 / 否)和心脏合并症(是 / 否)这四个特征始终是影响死亡率预测的最重要因素,其中年龄和住院的影响尤为突出。这解释了死亡率模型准确性高且稳健性强的原因910。
- 综合比较:综合三年数据对比感染和死亡率的随机森林模型,感染模型准确率为 60.47%,死亡率模型为 87.44%。这再次证明感染模型性能较差,死亡率模型性能较好。同时,通过对其他模型(如 XGBoost 模型)和重要性评估方法(如 Permutation Importance)的分析,也验证了上述结论的可靠性911。
研究结论和讨论部分指出,本研究证实了时间性对 COVID-19 感染预测模型性能有负面影响,但对死亡率预测模型影响不明显。Shapley 值分析揭示了这种差异的原因:感染预测的重要特征不固定,而死亡率预测存在固定的主导特征。这一发现具有重要意义:首先,为研究模型稳健性提供了新视角,表明模型稳健性与特征贡献的稳定性相关;其次,对改进 COVID-19 相关预测模型的准确性和稳健性具有实践指导意义,提醒研究人员在构建模型时要关注训练和测试集的时间间隔,谨慎使用和解释旧数据训练的模型,还可利用 Shapley 值量化特征重要性,提高模型的可解释性。不过,该研究也存在局限性,如数据仅来自巴西一个州,未考虑病毒传播动力学、部分重要特征(如疫苗接种率、公共卫生政策等)缺失,模型选择有限,数据采样策略单一以及时间窗口设置较粗等。未来研究可从这些方面改进,采用更先进的技术如迁移学习、动态更新或时间序列分析等,以提升模型在不同时间段的性能,更好地应对未来公共卫生危机129。