
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于时间序列动态因果推断与机器学习的中国人群卒中风险预测模型构建及关键健康因素解析
【字体: 大 中 小 】 时间:2025年06月01日 来源:BMC Neurology 2.2
编辑推荐:
为提升卒中高危人群的精准识别能力,哈尔滨工业大学等机构联合开展了一项结合动态因果推断(VAR-GNN)与机器学习(ML)的队列研究。通过分析CHARLS数据库中11,789名中国中老年人的纵向健康数据,研究发现引入滞后特征和差分特征后,Gradient Boosting模型预测性能最优(AUC 0.8286),揭示了功能障碍(ADL/IADL)、高血压(Hibpe)等动态健康指标的关键影响,为卒中一级预防提供了新型预测工具。
在中国,卒中已成为致残和致死的首要原因,每年新发病例高达394万例,给公共卫生体系带来沉重负担。尽管传统统计模型已用于卒中风险评估,但静态特征难以捕捉健康状态的动态演变规律,且现有预测模型多忽视变量间的时序因果关系。这一现状促使科研团队探索融合动态因果推断与机器学习的新型预测范式。
东北林业大学计算机与控制工程学院联合哈尔滨工业大学等机构的研究人员,基于中国健康与养老追踪调查(CHARLS)2011-2018年纵向数据,创新性地构建了"VAR-GNN"双模型框架。该研究通过向量自回归(VAR)捕捉线性时序关系,结合图神经网络(GNN)挖掘非线性相互作用,最终开发出性能优异的动态预测模型,相关成果发表于《BMC Neurology》。
研究采用三大关键技术:1) 基于CHARLS队列的11,789名≥45岁参与者数据,构建滞后特征(Xlag)和差分特征(Xdiff);2) 采用VAR模型进行格兰杰因果检验,联合GNN生成动态因果图;3) 对比7种机器学习算法(RF/XGBoost等),使用SMOTE处理数据不平衡并采用分层K折验证。
【临床特征】队列平均年龄65岁,高血压患病率42.9%,卒中组ADL评分(1.45±1.97)显著高于非卒中组(0.42±1.05),证实功能障碍与卒中的强相关性(P<0.001)。
【动态因果推断】通过滞后2期的血压指标(Hibpet-2)与IADL差分特征,发现历史健康状态变化可解释当前卒中风险。关键因果路径显示:自评健康(Srh)→记忆障碍(Memrye)→ADL→卒中风险链式传导。
【模型性能】引入动态特征后,所有模型AUC提升0.02-0.04。Gradient Boosting表现最优(AUC 0.8286),其SHAP分析揭示:当IADL>1.66时卒中风险骤增,而持续高血压(Hibpe=1)使SHAP值显著正向偏移。
【讨论与结论】该研究突破性地证实:1) 健康指标的时序变化较静态值更具预测价值;2) VAR-GNN框架可有效解析卒中风险的动态形成机制;3) 功能障碍临界点(IADL=1.66)为临床干预提供量化依据。尽管存在未考虑基因组学等局限,但该模型已实现74.34%的准确率,为动态健康管理系统的开发奠定基础。未来可通过深度强化学习(DRL)进一步优化个性化干预策略。
生物通微信公众号
知名企业招聘