CatBoost 模型:精准预测 45 岁以上人群骨关节炎风险的新利器

【字体: 时间:2025年04月25日 来源:Scientific Reports 3.8

编辑推荐:

  骨关节炎(OA)严重影响 45 岁以上人群健康,现有评估方法存在局限。研究人员利用 NHANES 数据,采用 5 种机器学习算法构建 OA 风险预测模型。结果显示,CatBoost 模型表现最佳。该研究为 OA 早期干预和管理提供了有效工具。

  在全球老龄化进程加速的当下,骨关节炎(Osteoarthritis,OA)如同潜伏在中老年人身边的 “健康杀手”,日益成为备受瞩目的公共卫生问题。作为最为常见的慢性关节疾病,OA 不仅无情地侵蚀着患者的生活质量,使其在日常活动中备受关节疼痛和功能障碍的折磨,还像一座沉重的大山,给医疗保健系统带来了巨大的压力。据世界卫生组织(WHO)的统计,OA 在全球致残原因中位列第四,其发病率更是随着年龄的增长而急剧攀升,45 岁以上人群成为了 OA 的高发群体。
然而,目前用于 OA 风险评估的方法却存在诸多短板。传统的临床评估往往依赖于患者出现的症状和体征,但这些表现通常在疾病发展到较晚阶段才会显现,这就导致许多患者错过了早期干预的最佳时机。而一些生物标志物,虽然与 OA 的发病机制存在关联,可单独使用时,其敏感性和特异性并不理想,难以满足精准早期预测的需求。在这样的困境下,开发一种能够整合多种因素、具备高预测准确性的 OA 风险评估模型迫在眉睫。

为了攻克这一难题,来自成都体育学院、四川省骨科医院以及成都高斯智能电子科技有限公司的研究人员携手开展了一项极具意义的研究。他们将目光聚焦于美国国家健康和营养检查调查(National Health and Nutrition Examination Survey,NHANES)的数据宝库,结合多种机器学习算法,致力于构建一个能够精准预测 45 岁以上人群 OA 风险的模型。这项研究成果发表在《Scientific Reports》上,为 OA 的防治带来了新的曙光。

研究人员在此次研究中运用了多种关键技术方法。数据来源上,他们提取了 NHANES 2011 - 2018 年涵盖四个周期的数据,样本包含了 2980 名 45 岁以上的参与者。在模型构建阶段,采用了逻辑回归(LR)、随机森林(RF)、轻梯度提升机(LGBM)、类别提升(CatBoost)和极端梯度提升(XGBoost)这 5 种机器学习算法。同时,利用递归特征消除(RFE)算法进行特征选择,通过计算曲线下面积(AUC)等指标评估模型性能,运用 SHapley Additive exPlanation(SHAP)方法解释模型并确定重要特征。

下面来看看具体的研究结果:

  • 基线特征:研究共纳入 2980 人,其中男性 1444 人,女性 1536 人,605 人被诊断为 OA,女性患病率更高。OA 患者年龄、腰围、体重指数(BMI)、高密度脂蛋白(HDL)和低密度脂蛋白(LDL)水平均高于非 OA 患者。但由于样本可能存在偏差,这些结果的普遍性有待进一步验证。
  • 机器学习算法性能比较:将一系列机器学习模型应用于训练集(n=2235),用测试集(n=745)评估预测性能。CatBoost 模型在测试集中 OA 预测的平均 AUC 值最高,达到 0.8020,其他模型也表现出良好的 AUC 值,范围在 0.7715 - 0.7888 之间。
  • 特征选择和模型预测:利用 RFE 从 24 个原始特征中筛选出 20 个对预测结果有显著影响的特征,基于这些特征用 CatBoost 算法构建的模型在测试集中 AUC 值达到 0.8109,准确率为 0.7315 。
  • 特征重要性评估:运用 SHAP 方法评估 CatBoost 模型的特征性能,发现性别、年龄、BMI 和腰围是预测 OA 的最具影响力的特征。

综合上述研究,研究人员成功开发并验证了基于机器学习的 45 岁以上人群 OA 风险预测模型。其中,CatBoost 算法结合 20 个重要特征,成为预测该人群 OA 风险的强大且有效的工具。该模型所确定的关键预测因素与已知的 OA 风险因素相符,SHAP 方法则增强了机器学习算法的可解释性,有助于医疗专业人员更好地理解各因素对 OA 风险的影响。这不仅为 OA 的早期识别和管理提供了有力支持,还为制定更具个性化的预防和干预策略奠定了基础,对推动 OA 研究领域的发展具有重要意义。

不过,这项研究也存在一定的局限性。一方面,研究属于横断面研究,样本量相对较小,可能影响模型的预测效率,需要在更大规模的样本中进一步验证;另一方面,模型主要考虑了患者的人口统计学特征、生活方式和实验室指标,未涵盖遗传因素、职业以及既往膝关节创伤等潜在影响因素。尽管如此,该研究依然为后续的 OA 研究指明了方向,未来研究可在此基础上不断完善,进一步提高 OA 风险预测的准确性和模型的适用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号