基于可解释机器学习的韩国老年人痴呆预测因素:多维度分层分析揭示认知衰退的关键决定因素

《Alzheimer's Research & Therapy》:Predictive factors for dementia among older adults in South Korea: an interpretable machine learning analysis

【字体: 时间:2025年11月15日 来源:Alzheimer's Research & Therapy 8

编辑推荐:

  本研究针对韩国快速老龄化背景下痴呆患病率急剧上升的公共卫生挑战,利用韩国老龄化纵向研究(KLoSA)2014-2020年数据,采用线性回归、随机森林、XGBoost和CatBoost四种机器学习算法,对4958名45岁以上基线无痴呆参与者进行分层分析。研究发现年龄和教育是最稳定的非可改变预测因素,而口腔健康、抑郁、家庭收入、生活质量和工具性日常生活活动能力(IADL)等可改变因素在不同认知状态、年龄和性别亚组中呈现差异化重要性模式,为制定针对性痴呆预防策略提供了实证依据。

  
随着韩国以惊人的速度步入超老龄化社会——从老龄化社会到超老龄化社会仅用26年,比日本(36年)和美国(94年)快得多,痴呆患病率也呈现急剧上升态势。最新数据显示,韩国痴呆患者人数从2014年的约61万激增至2024年的100万,增幅达65%,预计到205年将超过300万。65岁及以上人群的患病率(10.3%)远高于OECD国家平均水平(约7-8%),给社会医疗体系带来沉重负担。
面对这一严峻挑战,早期识别高风险个体成为应对痴呆问题的关键。痴呆作为一种复杂疾病,受到不可改变因素(如年龄、性别、基础认知状态)和可改变因素(如社会经济条件、健康行为、心理社会特征)的共同影响。然而,现有研究往往将认知正常者笼统归为一类,忽视了轻度认知障碍(MCI)个体与真正认知正常者之间的差异,限制了针对性预防策略的制定。此外,痴呆风险在不同年龄和性别群体中存在显著差异,反映了生物学脆弱性、社会暴露和政策相关性的异质性,迫切需要分层分析方法。
传统预测模型多依赖横断面数据和常规回归方法,难以处理高维度、多波次数据中的复杂非线性关系。机器学习方法虽在痴呆预测中展现出潜力,但基于韩国大规模代表性纵向数据的研究仍较为缺乏。以往研究受限于样本量小、横断面设计、地理文化背景单一等局限性,且多关注65岁以上人群,对中年人群的关注不足。韩国独特的社会结构——激烈的教育职业竞争、强烈的家庭义务观念、相对有限的长期照护基础设施——创造了独特的心理社会压力源,这些因素可能与可改变的健康行为和社会决定因素产生交互作用,进一步凸显了基于韩国语境进行深入分析的必要性。
为解决上述问题,Sohn等研究人员在《Alzheimer's Research & Therapy》上发表了最新研究,利用韩国老龄化纵向研究(KLoSA)2014-2020年六轮数据,对4958名45岁及以上基线无痴呆参与者进行深入分析。研究采用分层设计,首先按基线认知状态(认知正常vs轻度认知障碍)分组,再对认知正常组按年龄(<65岁vs≥65岁)和性别进行亚组分析,系统考察了社会人口学、健康状况、健康行为和情境因素四大领域的26个预测因素(含45个时点变化指标)。
研究方法上,该研究主要采用了以下几种关键技术:利用韩国老龄化纵向研究(KLoSA)这一全国代表性纵向调查数据构建平衡面板;应用四种回归算法(线性回归、随机森林、XGBoost和CatBoost)进行预测建模;采用贝叶斯优化进行超参数调优;通过多标准方法(包含七种指标)评估变量重要性,整合模型基础指标和SHAP值;使用SHapley Additive exPlanations(SHAP)进行模型解释分析。
预测性能分析
机器学习模型在所有数据集上表现出中等预测性能(R2=0.201-0.361),其中MCI_All数据集预测精度最高。不同算法间性能相当,无单一算法表现出一致优越性。预测值在低MMSE范围内倾向于高于观测值,反映了数据集向较高认知得分的偏态分布,表明模型特异性高于敏感性。
因素重要性模式
认知正常与MCI组比较显示,年龄在两个组别中均为最重要因素,教育次之,在认知正常组贡献更大。口腔健康在两个组别中均位列前茅。认知正常组中家庭收入、抑郁、抑郁变化、社会接触和社会接触变化的重要性更高,而MCI组中一般健康、IADL变化、锻炼和生活质量贡献更大。
年龄分层分析表明,教育在两个年龄亚组中均为最重要变量。年龄本身在≥65岁组非常重要,在<65岁组也显示中等重要性。家庭收入和生活质量在≥65岁组贡献更大,而口腔健康、抑郁变化和社会接触在<65岁组更突出。<65岁组中高血压和社会接触变化排名靠前,≥65岁组中IADL变化和一般健康较为重要。
性别分层分析显示,年龄和教育在两个性别中均排名靠前,教育在女性中贡献更大。家庭收入在性别间重要性相似。女性表现出一般健康和抑郁的更高贡献,而男性显示口腔健康、抑郁变化和生活质量的更高贡献。
SHAP依赖分析
抑郁变化与MMSE影响呈反比关系,抑郁负向变化(改善)通常与正向SHAP值(增加MMSE预测)相关。非线性模式在各数据集间变化,Normal_Men组显示最明显效应。
研究结论表明,年龄和教育是最具影响力的非可改变因素,而口腔健康和IADL表现是所有组别中重要的可改变因素。分层分析揭示了亚组特异性模式:认知正常成人中,社会经济和心理社会因素如家庭收入、抑郁和社会接触特别重要;MCI组中,健康和功能测量更具预测性。年龄和性别差异突出表明,<65岁成人更多受行为和心理社会因素影响,女性受抑郁和口腔健康影响更大,男性受社会经济状态和社会参与影响更显著。
这些发现支持双重预防策略:对非可改变因素的长期结构性支持,结合针对可改变因素的干预措施,包括心理健康、功能维持、口腔健康和社会参与。这种分层定制方法有助于减轻老龄化人口中痴呆的日益加重负担。
研究的创新性在于采用可解释机器学习方法揭示预测因素重要性在认知状态、年龄和性别间的细微模式,强调了针对性干预在降低老龄化人口痴呆风险方面的价值。韩国快速人口老龄化使其成为理解发达社会痴呆风险因素的重要案例研究,识别不同类别风险因素及其性别特异性和认知状态特异性模式,为全球老龄化人口制定针对性预防策略提供了宝贵见解。
然而,研究也存在一些局限性:MCI人群的进一步分层(如按年龄或性别)因样本量较小不可行;教育虽 consistently 作为关键预测因素出现,但未优先进行分层分析;部分预测因素通过自我报告评估可能存在回忆偏倚;MMSE对轻度认知障碍的检测灵敏度有限;六年随访期可能无法捕捉认知衰退的全轨迹或晚期痴呆转化;遗传风险因素、家族史和详细药物使用信息不可得;文化背景可能限制对非东亚人群的普适性。
未来研究结合客观测量、干预设计、更长随访期以及额外生物学和药理学数据是必要的。这些发现对改善痴呆预防和管理的临床实践和公共卫生政策具有重要启示,为制定针对性预防策略提供了实证基础,有助于应对老龄化社会面临的全球性挑战。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号