
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用可解释人工智能重新审视健康的社会决定因素:一项基于多国老年人群的机器学习预测研究
【字体: 大 中 小 】 时间:2025年09月18日 来源:American Journal of Epidemiology 4.8
编辑推荐:
本研究针对传统健康风险因素研究中多变量综合分析不足的问题,采用机器学习与可解释人工智能(XAI)技术,整合美国HRS、欧洲SHARE和英国ELSA三大老年队列数据,从人口统计、社会经济、心理等七大领域系统分析死亡率预测模型。研究发现人口与社会经济因素是最稳定的预测域,但具体风险因子存在显著跨国差异,揭示了健康社会决定因素存在情境特异性,为跨国家健康政策制定提供了数据驱动的科学依据。
随着人口老龄化进程加速,理解影响老年人健康结局的因素已成为公共卫生和流行病学研究的核心议题。传统研究多聚焦于单一风险因素与死亡率的关联分析,而忽视多种因素间的协同作用。尽管社会流行病学理论(如Link和Phelan提出的“根本原因理论”)强调社会经济地位、教育、社会关系等多维因素通过复杂机制共同影响健康,但多数实证研究仍局限于解释性框架,缺乏对多因素联合预测效能的系统验证。此外,现有预测模型多基于单一国家数据,难以揭示健康社会决定因素在不同文化、医疗政策和社会环境下的异质性。
为解决上述问题,牛津大学社会学系Jiani Yan等人在《American Journal of Epidemiology》发表研究,首次整合美国健康与退休研究(HRS)、欧洲健康、老龄与退休调查(SHARE)和英国老年纵向研究(ELSA)三大跨国队列数据,采用机器学习与可解释人工智能(Explainable AI, XAI)方法,构建死亡率预测模型,并从域层面和因子层面解析不同社会决定因素的相对贡献。
研究团队从七大健康相关领域(人口统计学、社会经济、心理状态、社会连接、童年逆境、成年逆境及健康行为)提取变量,使用12种机器学习分类算法(包括LightGBM、随机森林、超级学习器等)训练模型,并以PR-AUC(精确率-召回率曲线下面积)、ROC-AUC和IMV(Inter-Model Vigorish)等指标评估预测性能。为增强模型可解释性,采用SHAP(Shapley Additive exPlanations)值量化各风险因子对预测结果的边际贡献,并创新性提出“留一域出”算法(leave-one-domain-out)评估域级重要性。
主要技术方法包括:基于HRS、SHARE和ELSA队列的回顾性数据分析;使用LightGBM等集成学习算法进行模型训练与优化;采用SHAP值进行特征重要性分解;通过留一域出算法计算域级贡献度;使用PR-AUC和ROC-AUC等指标处理不平衡数据集。
所有数据集均显示较高的死亡率预测效能。HRS、SHARE和ELSA的最高ROC-AUC分别达0.820、0.815和0.832,PR-AUC分别为0.698、0.586和0.533。集成学习器Super Learner表现不及LightGBM,后者在所有场景中均达到最优预测性能。
人口统计域(含年龄、性别)和社会经济域在所有数据集中均是最重要预测域,与根本原因理论一致。在HRS和SHARE中,童年逆境域贡献度排名第三,而ELSA中健康行为域更为重要。域重要性排序在不同数据集中呈现稳定性,但相对权重存在差异。
通过SHAP值分解发现,仅年龄和性别是三大数据集共同的高重要性因子(平均|SHAP|>0.1)。其他重要因子存在显著跨国差异:HRS中包括低/无中度活动、吸烟史、收入和特质焦虑;SHARE中以当前吸烟、财富和母亲教育为主;ELSA则涵盖收入、职业地位、日常歧视和教育等多域因子。健康行为因子(如吸烟和体力活动)的重要性随年龄增长呈下降趋势。
年龄对死亡风险的贡献呈“V”型分布,在60-75岁(接近平均死亡年龄)预测效能最低,而在高龄组(>80岁)显著升高。性别贡献则相对稳定 across age groups。收入、吸烟状态等因子在特定年龄组呈现不同的重要性轨迹,如ELSA中收入的重要性在年轻组和高龄组均较高。
该研究通过机器学习与可解释人工智能技术,首次在多国老年队列中系统验证了社会决定因素对死亡率的预测效能。研究表明,尽管人口统计和社会经济因素是全球老年健康差异的核心驱动域,但具体风险因子的重要性高度依赖社会文化背景(如吸烟行为在欧洲数据集中的突出作用)。这提示健康政策制定需兼顾普适性规律和区域特异性。
研究的创新点在于:提出“预测-解释”融合的研究范式,克服了传统模型可解释性差的局限;开发留一域出算法,实现了域级重要性的稳健评估;通过跨国比较揭示了健康不平等机制的情境依赖性。然而,研究仍受限于变量跨数据集不一致性、高收入国家样本偏差以及缺乏生物标志物数据等问题。
未来研究应整合中国CHARLS、印度LASI等中低收入国家数据,并纳入遗传和生物标志物信息,以构建更全面的健康预测框架。该研究为实施精准公共卫生干预和减少健康不平等提供了重要的方法论支持和实证依据。
生物通微信公众号
知名企业招聘