机器学习与传统Cox回归在癌症生存预测中的对决:基于真实世界数据的系统评价与Meta分析
《BMC Medical Research Methodology》:Comparison of machine learning methods versus traditional Cox regression for survival prediction in cancer using real-world data: a systematic literature review and meta-analysis
【字体:
大
中
小
】
时间:2025年10月29日
来源:BMC Medical Research Methodology 3.4
编辑推荐:
本研究针对癌症生存预测中传统Cox比例风险(CPH)模型的局限性,系统比较了机器学习(ML)方法与CPH模型在真实世界数据中的预测性能。通过对21项研究的系统评价和7项研究的Meta分析发现,ML模型(包括随机生存森林、梯度提升和深度学习)在预测癌症生存结局方面并未显著优于传统CPH模型(标准化均数差=0.01,95%CI:-0.01至0.03)。这一发现为临床选择预测模型提供了重要证据,同时强调了提高ML报告透明度的必要性。
在全球范围内,癌症仍然是导致死亡的主要原因,2019年约有1000万人死于癌症。准确预测癌症患者的生存时间对于评估预后因素、指导治疗决策和提高癌症护理质量至关重要。在生存分析领域,Cox比例风险(CPH)回归模型一直是传统标准方法,但其存在明显局限性:该模型最初为小数据集设计,对高维大数据集适应性较差,且需要满足比例风险假设,否则可能导致估计偏差。
随着人工智能技术的发展,机器学习(ML)方法在医疗领域的应用日益广泛。ML算法能够自动学习数据模式,特别适用于处理复杂、高维和异质性数据集。近年来,ML方法已逐渐应用于预测时间至事件结局,如肿瘤学中的生存结局。然而,现有的大多数系统评价主要比较ML与传统逻辑回归在预测二元结局方面的性能,缺乏专门针对癌症患者生存预测中ML与CPH模型比较的综合评估。
为填补这一知识空白,黄益南(Yinan Huang)领导的研究团队在《BMC Medical Research Methodology》上发表了这项系统评价与Meta分析,旨在:(1)系统识别基于ML的癌症患者生存预测模型;(2)评估ML风险预测模型与传统CPH模型在预测生存结局方面的性能差异。
研究团队采用PRISMA和MOOSE指南,系统检索了PubMed、MEDLINE和Embase数据库中截至2023年5月3日的相关研究。纳入标准包括:评估ML方法与CPH模型比较癌症生存结局的观察性研究,报告曲线下面积(AUC)或一致性指数(C-index)等性能指标,并使用美国真实世界数据(如行政索赔数据、电子病历或癌症登记数据)。最终共有21项研究纳入系统评价,其中7项符合Meta分析条件。
关键技术方法包括:系统文献检索策略、研究质量评估(采用改良的TRIPOD声明和Luo检查表)、随机效应模型进行Meta分析、多重敏感性分析(留一法、累积法、按ML算法类型分组分析等)。研究数据主要来源于SEER-Medicare登记数据集(90.48%)、退伍军人事务部数据(4.76%)和电子病历数据(4.76%)。
在21项纳入研究中,最常用的ML算法是随机生存森林(RSF)(76.19%),其次是梯度提升(GB)(23.81%)和深度学习(DL)(38.09%)。神经网络(NN)和支持向量机(SVM)分别占38.09%和14.28%。共评估了42个ML模型,平均AUC或C-index为0.759,中位数为0.751。大多数研究(80.95%)的ML模型AUC达到0.7或以上。
Meta分析结果显示,ML模型在预测癌症生存结局方面并未表现出优于CPH模型的性能。标准化均数差(SMD)为0.01(95%置信区间:-0.01至0.03),表明两种方法在预测准确性方面相似。
六组敏感性分析(包括留一法、累积法、按ML算法类型分组分析等)均证实了主要结果的稳健性。即使在纳入所有17个ML模型的扩展分析中,ML与CPH回归之间的AUC或C-index仍无显著差异(SMD=0.02,95%CI:-0.01至0.05)。
基于改良的TRIPOD声明和Luo检查表的评估显示,绝大多数研究(95.24%)为高质量,偏倚风险低。但部分研究未报告如何处理缺失数据,且一些研究未提供AUC或C-index的置信区间,使其不符合Meta分析条件。
本研究首次系统评价和Meta分析了ML算法与传统CPH模型在预测美国癌症患者生存结局方面的性能。研究发现,尽管ML算法(特别是RSF、GB和NN)在癌症生存预测中显示出良好的预测能力,但并未显著优于传统CPH模型。这一发现对临床实践和未来研究具有重要启示。
从临床角度看,CPH模型因其可解释性和能够清晰说明各预测变量(如年龄、疾病状态、癌症类型等)对生存时间的影响风险,在癌症治疗决策中具有独特价值。而ML模型虽然可能捕获更复杂的非线性关系,但其"黑箱"特性限制了临床解释性。因此,在选择预测模型时,不应仅考虑预测准确性,还需权衡模型的临床实用性和生成可操作见解的潜力。
本研究揭示了ML研究方法学方面需要改进的领域。大多数纳入研究缺乏外部验证,仅使用相同数据集进行模型验证,这限制了模型在其他真实环境中的适用性。未来研究应遵循标准化报告指南(如TRIPOD-AI),提高ML研究的质量和实用性。
值得注意的是,底层真实世界数据(RWD)的质量直接影响模型性能。本研究中使用的主要数据源SEER-Medicare数据存在一定局限性,如未捕获实验室和影像学检查结果,且主要涵盖老年癌症患者,限制了向年轻或商业保险人群的推广性。未来研究可考虑使用电子病历-索赔关联数据,这类数据包含更细粒度的临床预测变量,可能提高预测准确性和临床效用。
研究的局限性包括:仅检索英文文献和主要电子数据库;仅关注使用结构化数据集的ML研究;未评估AUC/C-index以外的性能指标;以及合并不同质量研究的结果。未来研究应比较特定类型ML与CPH模型在特定癌症类型中的性能,并评估模型校准情况。
总之,这项研究为癌症生存预测中ML与CPH模型的比较提供了重要证据,强调在选择预测模型时需要综合考虑预测准确性、临床实用性和可解释性。未来研究应继续探索ML在识别新型预后因素和优化临床决策支持方面的潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号