基于常规血液指标的骨质疏松预测模型开发与验证:一项结合机器学习与骨免疫学的回顾性研究

《BMC Medical Informatics and Decision Making》:Development and validation of an interpretable machine learning model for osteoporosis prediction using routine blood tests: a retrospective cohort study

【字体: 时间:2025年11月23日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  本研究针对双能X线吸收测定法(DXA)在骨质疏松诊断中存在的成本高、可及性差等问题,开发了一种基于常规血液指标的机器学习预测模型。研究人员通过回顾性纳入8144例骨科住院患者,采用LASSO回归和Boruta算法筛选出11个关键预测因子,构建的logistic回归模型(OP-LM)在测试集中AUC达0.800。该模型通过SHAP分析实现可解释性,并部署为在线计算器,为骨质疏松筛查提供了便捷、经济的辅助工具。

  
随着人口老龄化加剧,骨质疏松症(Osteoporosis, OP)已成为全球性的健康挑战。这种以骨量降低和骨微结构破坏为特征的代谢性骨病,在中国50岁以上人群中的患病率高达32.1%,尤其好发于绝经后女性。骨质疏松性骨折导致的致残率和死亡率分别达到50%和20%,预计到2035年将给中国医疗卫生系统带来1320亿元的经济负担。
目前,双能X线吸收测定法(Dual-energy X-ray Absorptiometry, DXA)仍是诊断骨质疏松的"金标准",但其临床应用受到设备成本、辐射暴露和地域可及性等多重因素的限制。定量超声(Quantitative Ultrasound, QUS)虽操作便捷,但诊断准确性有限。与此同时,中国每年有超过5亿人次参与健康体检,常规血液检查数据极为丰富,这为开发基于血液指标的骨质疏松筛查工具提供了宝贵资源。
骨免疫学(Osteoimmunology)研究的深入揭示了骨骼与免疫系统之间的复杂相互作用。淋巴细胞通过细胞因子调控破骨细胞-成骨细胞平衡,RANKL信号通路在慢性低度炎症状态下被激活,这些机制为理解骨质疏松的发病机制提供了新视角。研究表明,单核细胞-高密度脂蛋白胆固醇比率(Monocyte-to-HDL Ratio, MHR)、甘油三酯-葡萄糖指数(Triglyceride-Glucose Index, TyG)等代谢炎症复合指标与骨密度的相关性优于单一生物标志物。然而,传统统计模型难以捕捉多维血液数据中复杂的非线性关系,而机器学习算法在此方面展现出独特优势。
在此背景下,魏启鹏研究团队开展了一项回顾性队列研究,旨在开发并验证一种基于常规血液检测指标的可解释机器学习模型,用于骨质疏松的预测。该研究近期发表在《BMC Medical Informatics and Decision Making》期刊上,为骨质疏松的早期筛查提供了新思路。
研究人员采用的关键技术方法包括:回顾性收集2022年1月至2023年12月在广州市中医药大学番禺医院骨科住院的8144例患者的临床数据;通过单因素分析、最小绝对收缩和选择算子(Least Absolute Shrinkation and Selection Operator, LASSO)回归和Boruta算法进行特征选择;比较10种监督机器学习算法的性能;使用SHapley Additive exPlanations(SHAP)进行模型可解释性分析;并开发了基于Shiny平台的在线风险计算器。
研究结果
基线特征
研究最终纳入8144例患者,其中骨质疏松组4933例,非骨质疏松组3211例。患者按7:3比例随机分为训练集(n=5702)和测试集(n=2442),两组基线特征无显著差异。
模型开发
通过三种特征选择方法的一致性验证,最终确定11个关键预测因子:年龄、性别、血红蛋白(Hemoglobin, HGB)、碱性磷酸酶(Alkaline Phosphatase, ALP)、尿酸(Uric Acid, UA)、淋巴细胞计数(Lymphocyte Count, LYMPH)、丙氨酸氨基转移酶(Alanine Aminotransferase, ALT)、白蛋白(Albumin, ALB)、TyG指数、非高密度脂蛋白胆固醇-中性粒细胞比率(Non-HDL-to-Neutrophil Ratio, NHHR)和中性粒细胞计数(Neutrophil Count, NEUT)。
模型评估
在10种机器学习算法中,逻辑回归模型(OP-LM)表现最优,测试集AUC为0.800(95%CI:0.783-0.818),灵敏度0.719,特异度0.740。决策曲线分析(Decision Curve Analysis, DCA)和校准曲线显示该模型具有良好的临床适用性和校准度。
模型可解释性分析与在线应用
SHAP分析显示,年龄是最重要的预测因子,其次是性别、UA、ALP、HGB和NEUT。研究人员开发了在线计算器(https://op-lm.shinyapps.io/osteoporosis/),便于临床使用。
研究结论与讨论
本研究成功开发并验证了一种基于常规血液检测指标的可解释机器学习模型(OP-LM),用于骨质疏松的风险预测。该模型在测试集中表现出良好的判别能力(AUC=0.800)、校准度和临床实用性。
研究的创新点在于将骨免疫学理论与机器学习方法相结合,通过SHAP分析揭示了炎症和代谢指标在骨质疏松预测中的重要作用。中性粒细胞和淋巴细胞的同时纳入凸显了慢性炎症微环境在骨丢失中的关键作用。中性粒细胞通过释放活性氧(Reactive Oxygen Species, ROS)和基质金属蛋白酶-9(Matrix Metalloproteinase-9, MMP-9)直接促进骨吸收,而Th17/Treg比率失衡可能通过RANKL/OPG通路调控破骨细胞活化。TyG指数和NHHR的纳入证实了脂代谢紊乱对骨稳态的破坏作用。
值得注意的是,逻辑回归模型在外部验证数据上的表现优于随机森林(Random Forest, RF)和LightGBM等复杂模型,这可能是因为简单模型在有限数据集上更不易过拟合,具有更好的泛化能力。
研究的局限性包括单中心回顾性设计可能带来的选择偏倚、缺乏外部验证队列、未进行模型性能的正式统计比较,以及部分数据(如身高、体重和病史)的缺失。此外,研究人群为骨科住院患者,其中超过半数被诊断为骨质疏松,可能与社区或初级保健人群存在差异。
尽管存在这些局限性,该研究为未来研究奠定了基础,突出了OP-LM计算器在更广泛医疗环境中的潜在临床效用,特别是在初级医疗卫生机构中作为智能预筛查工具的应用前景。
总之,OP-LM模型作为一种便捷的预筛查工具,在经过进一步验证后,有助于提高初步筛查率,并通过识别高风险个体优化DXA资源的分配。未来需要前瞻性和多中心研究来确认其在真实世界环境中的普适性和临床实用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号