基于网格搜索优化的梯度提升回归模型预测COVID-19死亡率与营养因素关联研究

【字体: 时间:2025年10月07日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对COVID-19死亡率与营养因素的关联问题,通过网格搜索(GS)优化梯度提升回归(GBR)模型,分析了脂肪摄入量、能量摄取(kcal)、食物供应量(kg)及蛋白质水平等关键膳食属性。研究结果表明,GS-GBR模型将预测准确率从96.3%提升至99.4%,显著优于随机森林(RF)、决策树(DT)等传统机器学习模型,为通过营养干预降低COVID-19死亡风险提供了数据驱动的决策支持。

  
自2019年以来,COVID-19疫情持续对全球健康系统造成巨大压力,病毒不断变异(如奥密克戎变异株),导致超过600万人死亡。研究表明,营养状况是影响疾病抵抗力的关键因素,肥胖、高脂饮食和营养不良均会加剧免疫系统功能紊乱和炎症反应,从而增加COVID-19重症和死亡风险。然而,现有研究多集中于临床和人口学因素,缺乏对营养属性的深入建模与优化。为此,研究人员在《Scientific Reports》发表论文,通过机器学习方法探索膳食因素与COVID-19死亡率之间的预测关系。
本研究主要采用以下技术方法:基于公开的COVID-19健康饮食数据集(涵盖170个国家、4类营养属性),使用最小-最大归一化(Min-Max Normalization)进行数据预处理,采用网格搜索(Grid Search)进行超参数优化,并比较了五种机器学习模型:梯度提升回归(GBR)、随机森林(RF)、拉索回归(Lasso)、决策树(DT)和贝叶斯岭回归(BR),使用R2、MAE、MAPE和MSE作为模型评估指标。

数据预处理

研究人员首先对缺失值进行均值插补,并对数值特征进行归一化处理,以确保模型训练不受特征量纲影响。通过特征重要性分析,最终选择了动物产品、植物产品、谷物(不含啤酒)、肥胖率等4个核心营养指标作为预测变量。

模型训练与优化

在未优化状态下,GBR模型在所有对照模型中表现最优(R2=0.963,MSE=0.1512)。通过网格搜索对GBR的超参数(学习率、树深度、估计器数量)进行调优后,优化后的GS-GBR模型各项指标显著提升,R2达到0.994,MSE降至0.1321。

特征重要性分析

随机森林和GBR模型的特征评分显示,动物产品、谷物消费和肥胖率是与COVID-19死亡率最相关的因素,其中高糖分、高动物脂肪饮食与死亡率正相关,而植物类食物摄入则与较低死亡率相关。

统计显著性验证

通过配对t检验比较,GS-GBR模型在R2和MSE指标上均显著优于其他模型(p值均<0.05),证实其优化效果具有统计显著性。
研究结论表明,基于网格搜索优化的GBR模型能够高效预测COVID-19死亡率与营养因素之间的复杂关系,准确率可达99.4%。该模型不仅为公共卫生政策提供了基于数据的营养干预策略,也为未来结合更多变量(如疫苗覆盖率、病毒变异体)扩展预测模型奠定了基础。此外,研究强调应早期开展营养风险筛查(如NRS-2002评分),对高风险人群实施个性化膳食干预,从而降低COVID-19的整体疾病负担。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号