
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的老年人COVID-19风险分层:个人认知与健康因素的精准预测模型
【字体: 大 中 小 】 时间:2025年07月30日 来源:BMC Public Health 3.5
编辑推荐:
本研究针对COVID-19大流行期间老年人风险感知差异问题,通过整合人口统计学、健康和行为数据,采用K-modes聚类和CatBoost/XGBoost等机器学习算法构建预测模型,识别出三类风险群体(高认知低风险组、健康问题低认知组、高暴露高风险组)。L2 SVM模型达到97.24%的预测准确率,SHAP分析揭示家庭卫生实践和高血压等健康问题是关键驱动因素,为精准化公共卫生干预提供了数据支持。
伊朗德黑兰伊朗医科大学的研究团队在《BMC Public Health》发表了一项突破性研究,揭示了老年人面对COVID-19时的"认知-行为-健康"三重悖论。这项研究源于一个令人困惑的现象:尽管全球数据显示老年人是COVID-19重症的高危人群,但个体间的实际感染风险和疾病严重程度存在巨大差异。传统预测模型往往过度依赖临床指标,忽视了心理认知和家庭环境等"软因素",导致公共卫生资源分配效率低下。
研究团队创新性地采用了混合机器学习方法,对1,812名60岁以上伊朗老年人进行多维度分析。通过K-modes聚类算法识别出三类典型人群:第一类是"理性防护型"(占58%),他们具备准确的COVID-19知识但家庭暴露风险低;第二类是"认知薄弱型"(33%),多为70岁以上女性,存在高血压等基础疾病但对疾病认知不足;第三类是"高暴露型"(9%),虽然知识水平高但家庭成员确诊且伴有胃肠道症状。令人惊讶的是,L2支持向量机模型在预测这些分类时展现出近乎完美的准确率(97.24%),远超传统统计方法。
关键技术方法包括:1)基于全国性电话调查的三波次横断面数据采集;2)针对分类数据的K-modes聚类算法优化;3)7种机器学习模型(CatBoost/XGBoost等)的对比验证;4)SHAP值驱动的特征重要性解析。特别值得注意的是研究团队采用了Cao初始化方法,使聚类轮廓系数达到0.1584,有效解决了分类数据的异质性问题。
研究结果揭示多个反常识现象:
在讨论部分,作者提出了"动态脆弱性指数"概念,强调需要将高血压等静态健康因素与风险认知等动态心理指标结合评估。这项研究的创新性体现在:首次证实胃肠道症状(k_GI_only)是比年龄更敏感的风险预测因子;建立了可解释的机器学习框架,其中家庭暴露(familmem_covid)的SHAP值达到3.2488,成为最强劲的预警信号。
该研究对公共卫生实践具有三重启示:首先,建议对Cluster 1(健康问题低认知组)开展针对性健康教育;其次,为Cluster 2(高暴露型)设计"家庭单元"隔离策略;最后,开发基于L2 SVM的在线风险评估工具。这些发现不仅适用于COVID-19,也为应对未来流行病提供了可迁移的风险评估范式。正如通讯作者Seyed Abbas Motevalian指出的:"真正的精准预防需要同时扫描患者的电子健康记录和心理认知图谱"。
研究局限性包括依赖自我报告数据和横断面设计,未来可通过穿戴设备获取客观生理指标进行纵向验证。值得关注的是,该团队开发的预测模型已整合到伊朗国家老年人健康监测系统,成为资源调配的重要决策依据。这项研究标志着传染病防控从"群体平均水平"向"个性化预测"的重要转变。
生物通微信公众号
知名企业招聘