XGBoost 模型:精准预测韩国女性骨质疏松风险的新利器

【字体: 时间:2025年03月29日 来源:BMC Women's Health 2.4

编辑推荐:

  为解决传统骨质疏松筛查工具局限性问题,研究人员开展 “开发机器学习(ML)模型预测韩国女性骨质疏松风险” 的研究。结果显示 XGBoost 模型性能最佳,绝经年龄等是关键风险因素。该研究有助于早期筛查和个性化预防骨质疏松。

  骨质疏松是一种以骨量和骨微结构系统性紊乱为特征的骨骼疾病,会增加骨折风险,进而带来沉重的社会和经济负担。随着全球老龄化加剧,骨质疏松的发病率不断上升,且女性患病率明显高于男性。目前,常用的骨质疏松筛查工具,如骨质疏松风险评估工具(ORAI)和骨质疏松自我评估工具(OST),仅考虑年龄、体重等少数因素,存在敏感性和特异性低的问题。因此,开发更精准的骨质疏松预测模型迫在眉睫。
韩国国立健康研究院开展的韩国基因组与流行病学研究(KoGES)中的安山和安城队列研究,为解决这一问题提供了契机。该队列研究收集了大量关于社会人口学特征、人体测量参数、生活方式因素、生殖因素、营养摄入、饮食质量指数、病史、用药史、家族史、生化参数和遗传因素等多方面的数据。基于此,庆尚国立大学的研究人员开展了一项研究,旨在开发一种基于多变量的机器学习(ML)模型,用于分类预测韩国女性的骨质疏松风险,并与传统筛查工具进行性能比较,同时探究影响骨质疏松风险的因素。

该研究成果发表在《BMC Women's Health》杂志上。研究人员采用了多种关键技术方法。首先,利用 KoGES 安山和安城队列研究的基线调查数据(2001 - 2002 年),选取 40 - 69 岁女性作为研究对象,经过数据筛选,最终纳入 4199 名女性。其次,将骨质疏松设为因变量,122 个与骨质疏松风险相关的因素设为自变量。然后,运用 Python 语言及相关库,使用决策树、随机森林、多层感知器(MLP)、支持向量机(SVM)、轻梯度提升机(LGBM)和极端梯度提升(XGBoost)6 种 ML 技术开发分类模型,并通过 Optuna 库进行超参数调优。最后,利用混淆矩阵和受试者工作特征曲线下面积(AUC)等指标评估模型性能,使用 XGBoost 技术评估变量重要性。

研究结果如下:

  1. 研究对象特征:4199 名女性中,806 名患有骨质疏松。骨质疏松组年龄更大,绝经后女性比例更高,教育和收入水平较低,高血压、糖尿病、关节炎和痛风等疾病患病率更高,部分营养物质摄入和饮食质量指数也存在差异。
  2. 模型性能:XGBoost 模型在 6 种 ML 分类模型中表现最佳,准确率为 0.705,精确率为 0.664,召回率为 0.830,F1 分数为 0.738,且其 AUC 值高于传统筛查工具。
  3. 变量重要性:122 个变量中有 69 个显示出变量重要性分数。绝经年龄在变量重要性中排名第一,关节炎、体育活动、高血压、教育水平、收入水平等因素也位列前 20。

研究结论和讨论部分表明,XGBoost 模型在预测韩国女性骨质疏松风险方面优于其他模型和传统筛查工具。绝经年龄是骨质疏松风险的关键因素,这与雌激素水平下降导致骨代谢失衡有关。社会人口学因素、病史、生活方式因素、饮食摄入和生化参数等也与骨质疏松风险密切相关。例如,关节炎会引发炎症反应,破坏骨和软骨;体育活动能增强骨密度;钾摄入有助于维持酸碱平衡,促进骨健康。该研究为骨质疏松的早期检测和个性化预防提供了新的方法和思路,有助于提高女性的骨骼健康水平。但研究也存在一定局限性,如数据可能存在回忆偏倚,模型需用随访数据进一步验证。未来研究可针对这些问题展开,进一步完善骨质疏松风险预测模型,为临床和社区骨质疏松防治工作提供更有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号