基于NHANES数据库开发并验证一种用于预测中风风险的机器学习模型
《Medicine》:Development and validation of a machine learning model to predict stroke risk based on the NHANES database
【字体:
大
中
小
】
时间:2025年11月08日
来源:Medicine 1.4
编辑推荐:
中风风险预测模型构建及多方法比较研究。采用NHANES 1999-2002年数据(n=9922),通过LASSO回归联合逐步回归、随机森林及Boruta算法联合LASSO三种方法筛选变量并构建预测模型。结果显示LASSO+逐步回归模型AUC达0.843,优于随机森林(0.612)和Boruta+LASSO(0.828)。变量筛选显示年龄、高血压、心衰、心梗及心绞痛为关键预测因子。研究证实机器学习模型结合多变量选择方法可有效提升中风风险预测精度,为临床决策提供新工具。
本研究探讨了机器学习在评估中风风险中的应用,并基于美国国家健康与营养调查(NHANES)数据库的数据,构建了三种不同的预测模型。中风是一种严重的健康问题,具有较高的发病率和死亡率,因此,及时且准确的风险评估对于预防和临床干预至关重要。NHANES数据库覆盖了1999年至2002年的数据,包含了大量关于美国成年人和儿童的健康与营养信息,为疾病风险预测模型的开发提供了宝贵的数据资源。研究选取了9922名参与者,其中358人有中风病史,这些数据为模型构建和评估提供了坚实的基础。
研究采用了三种不同的变量选择方法,分别是LASSO回归结合逐步回归、随机森林算法以及Boruta算法与LASSO回归相结合。每种方法在变量筛选和模型构建上都表现出不同的特点和效果。LASSO回归是一种能够自动选择变量、降低模型复杂度的线性回归方法,结合逐步回归后,最终筛选出的变量包括年龄、高血压、心力衰竭、心肌梗死和心绞痛。这些变量在统计分析中显示出显著的差异性,且被用于构建一个直观的列线图模型,以便医生和患者更好地理解中风的风险因素。该模型在受试者工作特征(ROC)曲线和精确率-召回率(PR)曲线分析中表现良好,其AUC值达到0.843,表明其具有较强的区分能力。此外,校准曲线和临床决策曲线进一步验证了模型的预测准确性和实际应用价值。
相比之下,随机森林模型虽然在处理大量变量和非线性关系方面表现优异,但在预测准确性和AUC值方面稍逊一筹,仅达到0.612。这可能与变量选择方法、数据特征以及模型本身的复杂性有关。随机森林模型通过变量重要性分析确定了关键变量,并构建了相应的列线图模型,但其在预测性能上仍存在一定局限。而Boruta算法结合LASSO回归的方法在变量筛选过程中表现更为精确,最终确定了12个重要变量,包括年龄、身高、体重、性别、种族、关节炎、心力衰竭、冠心病、心肌梗死、心绞痛、肺气肿和癌症。这些变量被用于构建预测模型,其AUC值为0.828,与LASSO逐步回归模型的性能相近,但略逊于前者。这表明,虽然Boruta算法在变量筛选方面具有优势,但其结合LASSO回归的模型在预测能力上仍存在一定的提升空间。
本研究通过多种模型评估方法,如ROC曲线、PR曲线、校准曲线和临床决策曲线,对模型的性能进行了全面分析。这些评估方法不仅帮助研究人员理解模型的区分能力和预测准确性,还为模型的实际应用提供了依据。例如,ROC曲线用于评估模型的分类能力,而PR曲线则在处理不平衡数据集时提供了更精确的评估工具。校准曲线用于衡量模型预测概率与实际结果的一致性,而临床决策曲线则展示了模型在不同临床决策阈值下的实用价值。
研究结果表明,不同的变量选择方法对模型的预测性能有着显著影响。LASSO逐步回归模型在预测能力方面表现最佳,而随机森林模型虽然在处理复杂数据方面具有一定优势,但在预测准确性和AUC值上仍存在不足。Boruta算法结合LASSO回归的方法在变量筛选上表现良好,但其预测性能略低于LASSO逐步回归模型。这说明,尽管机器学习方法在处理数据和模型构建上具有一定的优势,但在实际应用中仍需进一步优化,以提高预测的准确性和泛化能力。
此外,研究还探讨了中风的风险因素,包括年龄、高血压、糖尿病、肥胖、心力衰竭、心肌梗死、心绞痛、肺气肿、慢性支气管炎、肝病和癌症等。这些因素在中风的预测模型中均被纳入考虑,其中年龄、高血压、心力衰竭、心肌梗死和心绞痛被证明是最重要的风险因素。年龄的增长与血管功能的退化密切相关,增加了动脉粥样硬化的风险,从而提高了中风的发生率。高血压是中风的重要可改变风险因素,长期的高血圧会损伤血管壁,增加血栓和出血的风险。糖尿病则与血管损伤和血糖控制问题相关,增加了动脉粥样硬化和血栓的风险,从而提高了中风的可能性。肥胖与多种心血管疾病相关,如高血压、糖尿病和高胆固醇,这些疾病都是中风的危险因素。
性别也是影响中风风险的重要因素,男性和女性在中风风险因素和疾病表现上存在显著差异。种族和家庭背景可能对中风风险产生一定影响,因此在模型构建过程中需要考虑这些变量。此外,某些慢性疾病如关节炎、慢性支气管炎和肝病也可能与中风风险相关,尽管它们在传统中风风险评估中较少被提及。研究指出,这些变量可能在某些情况下对中风的发生起到一定作用,因此在模型中予以纳入。
本研究还强调了机器学习在中风风险预测中的重要性。相比传统的统计模型,机器学习方法能够更好地处理复杂的非线性关系和高维数据,从而提高预测的准确性和模型的泛化能力。然而,研究也指出,目前的模型在某些方面仍存在局限,如样本量、变量质量和算法选择等。因此,未来的研究可以考虑使用更大的数据集、更全面的变量和更先进的算法,如深度学习或集成学习方法,以进一步提高模型的性能和临床适用性。
总的来说,本研究通过比较不同的变量选择方法和模型构建策略,为中风风险预测提供了新的思路和工具。LASSO逐步回归模型在预测能力方面表现最佳,而随机森林和Boruta-LASSO模型则在变量筛选和模型稳定性上具有一定的优势。这些模型不仅有助于提高中风的预测准确性,还为临床实践提供了有价值的参考。未来的研究可以在此基础上进一步优化模型,探索更多的变量和算法,以提升中风风险预测的全面性和实用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号