基于梯度提升算法的中国社区老年人认知功能精准预测模型构建及验证

【字体: 时间:2025年06月18日 来源:Preventive Medicine 4.3

编辑推荐:

  【编辑推荐】针对中国老龄化社会认知障碍早期筛查难题,浙江大学团队基于CHARLS队列13,906名老年人数据,采用梯度提升分类器(GBC)和回归器(GBR)算法,筛选出教育程度、童年社交等10个关键预测因子,构建的模型当前认知预测AUC达0.832,未来预测RMSE仅3.356,为社区认知健康干预提供高效工具。

  

随着中国老龄化进程加速,认知障碍已成为重大公共卫生挑战。数据显示,55岁以上人群认知障碍患病率超15%,相关医疗费用高达90亿美元,但仅2%的家庭具备照护能力。传统预测模型存在变量冗余、仅关注短期二元结局等局限,难以反映认知功能的动态演变规律。

浙江大学团队基于具有全国代表性的中国健康与养老追踪调查(CHARLS)2011-2020年数据,纳入13,906名≥60岁社区老年人,创新性地应用梯度提升算法构建认知预测模型。通过机器学习特征筛选,最终确定教育程度、童年友谊、年龄、工具性日常生活能力(IADLs)、户籍类型、行动能力、睡眠时长、性别、居住地和社交参与等10个核心预测因子。模型不仅实现当前认知状态的精准预测(分类任务AUC 0.832,回归任务RMSE 3.356),更突破性地建立连续认知评分预测体系,揭示认知轨迹的纵向变化规律。该成果发表于《Preventive Medicine》,为社区认知障碍早期筛查提供高效工具。

关键技术包括:1) 采用CHARLS全国性队列数据;2) 梯度提升分类器(GBC)和回归器(GBR)算法建模;3) 基于RMSE和准确度的双重特征筛选策略;4) 年龄分层亚组分析。

【数据与样本】
研究利用CHARLS具有全国代表性的基线数据(覆盖150个县区、450个社区),纳入≥60岁老年人基线认知评估及4年随访数据,通过机器学习处理缺失值和特征编码。

【特征选择】
通过两阶段筛选:初步将75个特征压缩至20个(RMSE损失仅增加0.8%),最终确定10个关键特征。教育程度贡献度最高(21.7%),其次为童年社交(15.3%)和IADLs(12.9%)。

【结果】
当前认知预测中,模型对轻度认知障碍(MCI)的敏感性达76.4%。未来预测显示,纳入基线认知状态使4年预测RMSE降低18.6%。年龄分层显示70-79岁组预测效能最优(AUC 0.847)。

【讨论】
该研究突破性地实现三个创新:首次在中国人群建立基于生命全程风险因素的预测模型;采用连续评分替代传统二元分类;验证机器学习在资源有限场景的应用价值。特别是发现童年社交等早期生命因素对晚年认知的持续影响,为"认知储备"理论提供实证支持。模型仅需10个易获取变量即可实现精准预测,显著提升社区筛查可行性。

局限性包括依赖自我报告数据和相对短期随访。未来研究可整合生物标志物和更长观察期。该成果为制定差异化的年龄分层干预策略提供数据支撑,对推动健康老龄化具有重要意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号