偏差还是最佳拟合?在单模型机器学习中,SEER和NCDB数据集在预测骨肉瘤生存结果方面的比较分析

【字体: 时间:2025年10月08日 来源:Clinical Orthopaedics and Related Research庐 4.4

编辑推荐:

  机器学习模型在骨肉瘤生存预测中存在数据集特异性,SEER和NCDB训练模型内部AUC均>0.90但跨库验证骤降至0.56-0.67,表明需在目标数据库重新验证。

  ```section>

背景

机器学习模型在骨科肿瘤学中越来越多地被用来预测骨肉瘤患者的生存结果。通常,这些模型是在单一数据集上训练的,例如监测、流行病学和最终结果(SEER)数据库或国家癌症数据库(NCDB)。然而,由于任何单一数据库(即使规模很大)也可能强调不同的数据点,并且可能存在错误,因此在单一数据集上训练的模型可能会学习到特定于该数据库的模式,而不是具有普遍性的临床关系,这限制了它们在不同患者群体中的临床应用价值。

问题/目的

我们使用SEER和NCDB数据库分别开发了机器学习模型,并(1)比较了这些模型在各自数据库上进行验证时预测2年和5年总生存率的准确性;(2)通过使用一个数据库训练的模型来验证另一个数据库,评估哪个数据库产生的模型更具泛化能力(即在该模型应用于未见的外部数据时仍能保持高性能);(3)确定了影响预测准确性的关键因素。

方法

我们选取了2000年至2018年(SEER)和2004年至2018年(NCDB)期间的15,241名SEER患者和11,643名NCDB患者,这些患者均被诊断为骨肉瘤。排除了肿瘤位于四肢/骨盆以外、骨肉瘤组织学结果未确认的患者(SEER中占52% [7989例],NCDB中占22% [2537例]),以及缺少转移、治疗或预后数据的患者(SEER中占20% [2974例],NCDB中占43% [5057例]),最终纳入了4049名NCDB患者和4278名SEER患者。SEER提供基于人群的覆盖信息,并包含详细的分期信息,但治疗数据有限;而NCDB则提供基于医院的数据,并包含全面的治疗细节。我们为每个数据集分别开发了模型,将数据随机分为训练集(80%)和验证集(20%)。这种分离至关重要,因为它使我们能够测试模型在完全新的、未见的数据上的表现——即验证模型在现实临床实践中的有效性。主要评估指标包括准确性(正确预测的比例)、接收者操作特征曲线下面积(AUC,值大于0.8表示性能良好)、布里尔分数(概率预测准确性,值小于0.25表示模型有用)、精确度(正确预测中的阳性比例)、召回率(识别实际结果的敏感性)和F1分数(精确度和召回率的调和平均值)。NCDB患者的平均年龄为22岁,而SEER患者为17岁(p = 0.005),性别分布相似(NCDB中56%为男性,SEER中56%为男性),但种族构成和总体生存率不同(NCDB在2年和5年时的生存率分别为72%和52%,SEER分别为65%和43%)。

结果

内部验证显示,NCDB训练的模型在2年时的AUC为0.93(95%置信区间[CI]为0.92至0.94),5年时的AUC为0.91(95% CI为0.90至0.92);SEER训练的模型在2年时的AUC为0.90(95% CI为0.89至0.91),5年时的AUC为0.92(95% CI为0.91至0.92)。这些AUC值大于0.90,表明模型具有出色的区分能力,能够可靠地区分出存活患者和死亡患者。尽管NCDB和SEER模型之间的差异较小(95% CI为0.90至0.93),但由于置信区间重叠,这些差异在临床上并不显著。然而,外部验证显示模型的迁移能力较差:在NCDB数据上测试的NCDB模型在SEER数据上的AUC为0.67(95% CI为0.65至0.68),在SEER数据上测试的NCDB模型在NCDB数据上的AUC为0.60(95% CI为0.58至0.62);在SEER数据上测试的SEER模型在NCDB数据上的AUC为0.61(95% CI为0.59至0.62),在NCER数据上测试的SEER模型在NCER数据上的AUC为0.56(95% CI为0.55至0.58)。这些外部验证的AUC值小于0.70,表明模型的预测性能较差(几乎与随机猜测相当,不适合用于临床决策)。这种显著的性能下降表明模型无法在不同医疗数据库之间可靠地迁移。NCDB模型更侧重于治疗变量,而SEER模型则更强调人口统计因素,这反映了两个数据库捕获的临床信息的差异,也解释了跨数据库应用失败的原因。

结论

模型应在它们将要应用的同一数据库环境中进行验证。这些结果突显了NCDB和SEER数据集之间的差异,表明模型学习的是特定于数据库的模式,而非具有普遍性的疾病模式。跨数据库应用模型会导致预测性能下降,应避免这种情况,除非重新进行验证。

证据水平

III级,预后研究。

通俗语言总结本研究比较了在两个不同数据库(SEER和NCDB)上训练的机器学习模型对骨肉瘤患者生存结果的预测能力。这两个模型在内部验证中的表现均很好,AUC值均超过0.90,表明预测准确性较高。然而,在另一个数据库上测试时,它们的表现显著下降,AUC值低于0.70,显示出较差的预测能力。这表明,在一个数据库上训练的模型可能无法在另一个数据库上很好地发挥作用,因为两个数据库强调的数据类型不同,例如NCDB侧重于治疗细节,而SEER侧重于人口统计因素。因此,模型应在它们预定的使用数据库中进行验证。

本文为机器生成,可能包含不准确之处。常见问题解答

```
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号