编辑推荐:
为解决中风早期筛查难题及城乡预测差异问题,上海中医药大学研究人员开展相关研究,构建预测模型,发现城乡关键预测因素差异,为针对性防控提供依据。
中风防控新难题:城乡差异待解
中风,这个健康的 “冷面杀手”,在中国乃至全球都肆意横行。2020 年,中国中风的加权患病率和死亡率触目惊心,分别达到 2.6% 和 343.4/10 万人年,估计有 1780 万患者和 230 万人因此离世。近年来,它更是荣登中国死因榜首,占全球中风死亡人数近三分之一。随着中国老龄化加剧,预计到 2035 年,60 岁以上老人占比超 30%,中风的发病和死亡人数将持续攀升,防控形势愈发严峻。
虽说中国已制定中风防控计划,但早期筛查困难重重。患者方面,症状识别不足、意识不清、听力障碍和知识匮乏,导致无法准确评估中风风险;医生也面临误诊、设备和人员短缺的困境。而且,城乡在中风院前延误、筛查诊断和后续治疗上差异巨大,这些都给中风防控增加了难度。传统研究聚焦于用机器学习提升中风预测,但大多忽视了体检指标(如身体功能)的作用,也未深入探究城乡预测差异。因此,开展一项全面的研究迫在眉睫。
上海中医药大学破局:开启中风预测新征程
上海中医药大学的研究人员勇挑重担,决心攻克这一难题。他们利用中国健康与养老追踪调查(CHARLS)2011 年的全国代表性队列数据,对 9413 名 45 岁及以上参与者进行深入分析。研究人员采用 9 种机器学习算法,包括逻辑回归(LR)、自适应增强分类器(AdaBoost)、支持向量机(SVM)等,构建了中风预测模型,并对城乡亚组展开分析,试图找出隐藏在数据背后的城乡差异密码。
研究方法:多管齐下,精准剖析
研究数据来源广泛,涵盖自我报告数据、体检测量数据(包含身体功能变量)和血液生物标志物数据。为确保数据质量,研究人员对缺失值进行了处理,利用 R 4.1.3 软件和 mice 包中的随机森林法,对缺失值小于 30% 的变量进行插补。之后,他们将数据集按 80%-20% 的比例划分为训练集和测试集,并采用过采样技术解决数据不平衡问题。在模型构建阶段,使用 Python 3.8.12 结合多种机器学习算法构建中风风险预测模型,通过五折交叉验证和贝叶斯优化寻找最佳超参数,最终用受试者工作特征曲线下面积(AUC)评估模型性能。
研究结果:城乡差异显著,预测各有侧重
- 预测模型性能:在总人群中,高斯朴素贝叶斯(GNB)算法表现最佳,AUC 达到 0.76;农村亚组中,LR 和 GNB 表现最优,AUC 均为 0.76;城市亚组里,LR 拔得头筹,AUC 为 0.67。这表明机器学习算法在预测中风风险上有一定可行性,且在农村亚组的预测准确性更高。
- 重要预测因素:总人群中,重复坐立试验时间、椅子高度、膝关节高度等十个因素对中风预测至关重要;农村亚组里,重复坐立试验时间、肌酐(CRE)、血小板(PLT)等因素作用突出;城市亚组则更依赖重复坐立试验时间、平均红细胞体积(MCV)、半串联平衡保持能力等因素。研究还发现,重复坐立试验时间对农村人群中风风险模型影响更大,而尿酸(UA)和半串联平衡保持能力对城市人群更为关键11。
研究结论与意义:精准防控的曙光
这项研究成果意义非凡。它首次利用机器学习算法,针对中国城乡人群构建中风预测模型,为中风防控开辟了新思路。研究揭示了身体功能指标(如平衡能力和握力)以及膝关节高度对中风预测的重要性,这是以往研究未曾关注到的。
而且,研究明确了城乡中风预测关键因素的差异。农村地区可针对性开展下肢力量和耐力训练,城市地区则应注重平衡和上肢力量锻炼,同时都要重视健康睡眠习惯的培养。这些发现为制定个性化、精准化的中风防控策略提供了科学依据,有望大幅提升中风防控效果,减轻社会和家庭的负担。不过,研究也存在局限性,如使用横断面数据无法确定因果关系、未涵盖所有可能因素等。但这并不影响其为后续研究指明方向,相信在科研人员的持续努力下,中风防控将迎来新的突破。