基于人口与人体测量数据的机器学习模型:老年低骨密度筛查新工具(2005-2020 NHANES)
【字体:
大
中
小
】
时间:2025年09月27日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对老龄化背景下低骨矿物密度(BMD)引发的骨质疏松症风险筛查难题,开发了一种基于易得人口统计学和人体测量数据的机器学习筛查模型。研究利用NHANES大数据,通过CatBoost算法实现高效预测(AUC 0.822),识别出体重、性别、年龄等关键风险因子,为社区早期筛查提供了经济、可行的新途径。
随着全球人口老龄化的加剧,低骨矿物密度(Bone Mineral Density, BMD)所导致的骨质疏松症及其相关骨折风险正成为日益严重的公共卫生问题。骨质疏松症不仅显著增加老年人骨折发生率,还导致高致残率、医疗负担加重以及生活质量下降。目前,临床上诊断低BMD和骨质疏松的金标准是双能X射线吸收测定法(Dual-energy X-ray Absorptiometry, DXA),但该方法成本较高、设备普及性有限,且筛查指南在不同人群中的应用存在差异,这使得在资源有限地区及大规模人群筛查中难以推广。此外,现有的风险评估工具多基于特定人群或依赖复杂临床指标,限制了其普遍适用性。
为解决这一问题,黄等人开展了一项研究,旨在利用易于获取的人口统计学和人体测量数据,构建一种可解释的机器学习模型,用于低BMD的早期筛查。该研究基于美国国家健康与营养调查(National Health and Nutritional Examination Survey, NHANES)2005–2020年数据,聚焦50岁以上成年人,通过分析多种机器学习算法的性能,最终提出CatBoost模型作为最优筛查工具。该研究论文已发表在《BMC Medical Informatics and Decision Making》上。
为开展本研究,作者使用了NHANES中2005至2020年间50岁以上成年人的数据,排除BMD或人体测量数据缺失者后,最终纳入13,133名参与者。BMD状态依据世界卫生组织(WHO)标准,以T值≤-1.0定义为低BMD。使用的人口统计学和人体测量变量包括年龄、性别、种族、体重、身高、体重指数(BMI)、腰围、臂围、臂长和腿长。数据经过独热编码和标准化预处理后,按9:1随机划分为训练与测试集。采用逻辑回归(LR)、支持向量机(SVM)、极限梯度提升(XGBoost)和类别提升(CatBoost)四种机器学习算法进行建模,通过5折交叉验证与网格搜索优化超参数,并使用接收者操作特征曲线下面积(AUC)、准确率、敏感性、特异性等指标评估模型性能。最后,借助SHAP(SHapley Additive exPlanations)方法对模型进行可解释性分析,识别关键预测因子。
本研究共纳入13,133名参与者,平均年龄64.88岁,男性占52.2%,非西班牙裔白人占46.9%。低BMD患病率为54.9%(7,209人)。与正常BMD组相比,低BMD组年龄更大(66.78岁 vs 62.55岁)、女性比例更高(59.7%)、体重更轻(71.97 kg vs 86.23 kg)、BMI更低(26.89 vs 29.92),各项人体测量指标均存在显著差异(p<0.001)。
在四种机器学习模型中,CatBoost表现最优,其在测试集上的AUC达0.822,准确率为0.751,敏感性0.775,特异性0.720,精确度0.782,F1分数0.779。XGBoost虽训练集表现优异(AUC 0.940),但测试集AUC降至0.808,存在过拟合迹象。线性模型(LR与SVM)性能相对较低,AUC均不足0.79。
为提高筛查敏感性,作者对CatBoost模型的分类阈值进行调整。当阈值从默认0.5降至0.311时,敏感性提升至0.950,但特异性降至0.379;阈值0.453时特异性达0.850,敏感性为0.642。这一分析为不同临床场景下的阈值选择提供了依据。
SHAP分析显示,体重是预测低BMD的最重要因素,较高体重对应较低风险。其次为性别(女性风险更高)、年龄(年龄增长风险升高)、腰围(腰围增大风险升高)和种族。非西班牙裔黑人风险较低,而非西班牙裔白人风险较高。其他人群体测量指标如身高、BMI、臂围等也与BMD状态显著相关。
本研究成功开发了一种基于CatBoost算法的低BMD筛查模型,仅使用易于获取的人口统计学和人体测量数据即可实现较高预测性能(AUC 0.822)。该模型不仅性能优越,还具备良好的可解释性,通过SHAP分析明确了体重、性别、年龄、腰围和种族等关键预测因子,与现有骨代谢生物学知识一致。例如,体重与BMD的正相关反映了力学负荷对骨结构的保护作用,而女性及高龄的高风险则符合骨质疏松症的流行病学特征。腰围作为中心性肥胖指标与BMD的负相关,提示体成分分布可能在骨健康中扮演重要角色。
该研究的优势在于利用大规模代表性样本(NHANES)和可解释机器学习方法,避免了传统统计模型中的线性假设限制,捕捉了变量间的复杂关系。所提出的筛查工具操作简便、成本低廉,特别适合社区及资源有限地区的大规模初步筛查,有助于早期识别高风险个体并引导进一步DXA确认,从而降低骨质疏松性骨折的发生风险。
然而,本研究仍存在一定局限性。首先,横断面设计无法推断因果关系或BMD动态变化。其次,模型基于美国多族群数据开发,在其他种族或地区的泛化能力需进一步验证。最后,未纳入饮食、运动、遗传等潜在影响因素,可能限制模型性能。未来研究可在多中心前瞻性队列中验证该模型,并探索整合更多易获取变量(如生活方式问卷)以进一步提升预测精度。
总之,这项研究为低BMD的早期筛查提供了一种可靠、经济且易于推广的机器学习工具,有望在公共卫生和临床实践中发挥重要作用,促进骨质疏松症的早期防控。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号