二元结果临床预测建模中变量选择的应用:一项系统评价

《Journal of Clinical Epidemiology》:The use of variable selection in clinical prediction modelling for binary outcomes: a systematic review

【字体: 时间:2026年06月14日 来源:Journal of Clinical Epidemiology 5.2

编辑推荐:

  Xinrui Su|Gareth Ambler|Nathan Green|Menelaos Pavlou英国伦敦UCL统计科学系摘要研究目的临床预测模型是能够辅助医疗决策的宝贵工具。简洁且易于理解的模型更有可能被应用于临床实践,因此,在模型构建过程中恰当选择预测变量往往至关重要。

  
Xinrui Su|Gareth Ambler|Nathan Green|Menelaos Pavlou
英国伦敦UCL统计科学系

摘要

研究目的

临床预测模型是能够辅助医疗决策的宝贵工具。简洁且易于理解的模型更有可能被应用于临床实践,因此,在模型构建过程中恰当选择预测变量往往至关重要。通常,研究人员会根据文献综述和专家知识来确定候选预测变量的列表,随后再运用数据驱动的变量选择方法来进一步减少最终模型中的变量数量。然而,诸如单变量选择这类常用的方法在预测建模中往往不被推荐。本系统评价旨在探讨在使用逻辑回归构建二元结果临床预测模型时,数据驱动变量选择方法的当前应用情况。

研究设计与背景

我们重点研究了2024年10月1日至21日期间发表在PubMed上的、利用逻辑回归构建二元健康结果预测模型的相关文章。我们收集了这些研究的特点信息,以及在适用情况下所采用的变量选择方法。

研究结果

共有141项研究被纳入本评价。我们发现几乎所有研究(140/141)都采用了数据驱动的变量选择方法。其中单变量选择是最常用的方法,有78%(110/141)的研究使用了该方法。其他常用方法还包括向后消除法(60/141,43%)、从单个多变量模型中“批量删除”变量法(58/141,41%)以及LASSO算法(35/141,25%)。许多研究会依次应用多种变量选择方法,最常见的两步组合是先进行单变量选择,再进行向后消除法(45/139,32%),或是先进行单变量选择,再进行批量删除变量法(43/139,31%)。此外,许多研究的报告内容不够详细,常见问题包括候选预测变量的描述不完整,以及变量选择方法的说明不明确。

结论

尽管在临床预测建模中一般不推荐使用数据驱动的变量选择方法,但本评价中的几乎所有研究都至少采用了一种此类方法,还有许多研究同时使用了两种或更多方法。那些最常受到批评的方法,如单变量选择和向后消除法,实际上仍被广泛使用。而像LASSO这类旨在优化样本外预测性能的同时去除冗余变量的现代惩罚型方法,则使用频率较低。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号