编辑推荐:
慢性病患者易患肌肉减少症(sarcopenia),精准预测对预防意义重大。研究人员利用中国健康与养老追踪调查(CHARLS)数据,构建多层感知器(MLP)模型。结果显示该模型预测效果良好,还开发出实用网络工具,有助于临床决策和评估。
在医学领域,肌肉减少症逐渐成为备受关注的焦点。它就像隐藏在慢性病患者身体里的 “定时炸弹”,悄无声息地威胁着患者的健康。肌肉减少症表现为骨骼肌质量和力量的进行性丧失,与多种慢性病紧密相连。想象一下,那些患有心血管疾病、糖尿病、慢性肾脏病等慢性病的患者,不仅要承受原有疾病的折磨,还面临着肌肉减少症带来的额外风险,如身体机能下降、住院率升高、死亡率增加等,这无疑让他们的健康状况雪上加霜。
以往针对肌肉减少症的研究,大多依赖横断面分析。这种研究方式就好比给病人拍了一张 “快照”,只能呈现某个时间点的情况,缺乏对疾病发展的系统性探索和预测价值。随着大数据时代的到来和机器学习技术的发展,为解决这一难题带来了新的契机。
在此背景下,重庆医科大学附属永川医院等机构的研究人员挺身而出,开展了一项极具意义的研究。他们利用中国健康与养老追踪调查(CHARLS)的数据,试图构建一个能够精准预测慢性病患者未来 3 - 5 年肌肉减少症发病风险的模型,并开发相应的实用工具,为临床干预提供有力支持。
研究人员在此次研究中运用了多种关键技术方法。他们选取 CHARLS 中 2011 - 2012 年和 2015 - 2016 年的患者数据作为研究队列。通过回顾性收集人口统计学信息、健康状况和生化标志物等数据,为后续研究提供了丰富的资料。利用广义线性混合模型(GLMM)探索协变量与肌肉减少症之间的关联,并构建了包括 K 近邻(KNN)、随机森林(RF)、极端梯度提升(XGBoost)和多层感知器(MLP)在内的多种机器学习模型进行预测。同时,采用递归特征消除(RFE)算法优化模型,确定关键变量,还运用 SHapley 可加解释(SHAP)方法分析特征重要性。
研究结果
- 基线特征:共有 2891 名慢性病患者符合标准。2011 - 2012 年有 580 人(20.1%)被诊断为肌肉减少症,到 2015 - 2016 年,这一数字增至 638 人(22.1%)。与非肌肉减少症患者相比,肌肉减少症患者多为女性、年龄更大、吸烟者,且教育水平较低,体重、身高、BMI、PEF 和脂质水平较低,但 HDL - C 水平较高,BUN 和 cystatin C 水平也更高。此外,肌肉减少症患者患慢性肺、肝和消化系统疾病的概率更高,而患高血压和其他慢性心脏病的概率较低。
- GLMM 固定效应:GLMM 分析显示,年龄较大、cystatin C 水平较高是肌肉减少症的重要风险因素;而受教育程度高、从不吸烟、身高较高、PEF 较好则是保护因素。同时,一些因素与时间的交互作用表明,具有某些特征的个体在随访期间患肌肉减少症的风险可能加速上升。
- 机器学习模型开发与评估:经过贝叶斯优化确定模型超参数后,发现 MLP 模型在测试集中表现最佳,其 ROC AUC 为 0.912,PR AUC 为 0.401,灵敏度为 0.875,特异性为 0.844,Kappa 值为 0.376,F1 分数为 0.44 。校准图显示 MLP 模型预测与实际结果一致性良好,五折交叉验证结果也表明其稳定性和准确性较高。
- 基于 SHAP 的特征重要性排序和依赖图:基于训练好的 MLP 模型,计算出体重、年龄、BMI、身高、总胆固醇、PEF 和性别是最重要的特征。这些特征与肌肉减少症的关系并非简单线性,如体重低于 60kg、年龄超过 60 岁、BMI 低于 24kg/m2时,肌肉减少症风险显著增加。
- RFE 算法简化 MLP 全模型:运用 RFE 算法简化 MLP 模型,发现保留体重、年龄、BMI、身高、总胆固醇和性别这六个变量时,模型能在保持简化结构的同时达到较高的准确性,ROC AUC 约为 0.9。
- 网络工具开发与预测:基于 RFE 算法选择的五个变量(体重、年龄、BMI、身高、总胆固醇)和性别,开发了一个网络工具。用户输入数据后,该工具能自动显示肌肉减少症的预测概率和 SHAP 力场图,帮助用户理解风险因素。
研究结论与讨论
该研究成功构建了一个仅包含六个易获取变量的 MLP 机器学习模型,可有效预测慢性病患者肌肉减少症的风险,并开发出实用的在线应用工具。研究发现,体重、年龄、BMI、身高、总胆固醇等因素对肌肉减少症风险预测具有重要意义。例如,体重低于 60kg、年龄超过 60 岁、BMI 低于 24kg/m2 、身高低于 1.6m 或总胆固醇超过 200mg/dL 的慢性病患者,患肌肉减少症的风险增加。
不过,该研究也存在一定局限性。数据来自单一中心,可能存在人群偏差;模型的部分指标如阳性预测值、PR AUC 和 F1 分数有待优化;与金标准方法相比,肌肉质量估计公式存在偏差;部分潜在混杂因素未充分考虑,可能导致选择偏倚和混杂偏倚。尽管如此,该研究为慢性病患者肌肉减少症的早期预警和干预提供了重要依据,网络工具的开发也为临床实践提供了便利,有助于推动肌肉减少症的精准防治,具有重要的临床价值和应用前景。未来,还需进一步开展更大规模、更多样化人群的纵向研究,以验证研究结果的普遍性,不断完善肌肉减少症的预测和防治策略。