编辑推荐:
在风险预测模型广泛应用的当下,模型校准至关重要,而模型失准(miscalibration)问题频发。研究人员针对此开展 “反对反射性重校准,构建解决模型失准因果框架” 的研究,发现反射性重校准存在弊端,建议先探究失准因果机制,这有助于优化模型应用,对提升模型准确性意义重大。
在当今医疗领域,风险预测模型就像医生手中的得力助手,无论是传统统计方法构建的,还是依靠强大计算能力的机器学习手段打造的,都在为医疗决策提供越来越多的支持。通过整合多个预测变量来估算个体患病风险,这些模型可比单纯依靠临床医生的主观判断,或者基于粗略风险分组的经验法则要靠谱得多。比如,一个预测心血管疾病风险的模型,能综合考虑年龄、血压、血脂等因素,给出更精准的患病可能性评估。
然而,风险预测模型有个关键的 “命门”—— 校准(calibration)。校准指的是模型预测的概率与实际发生事件的概率是否相符。想象一下,如果一个模型预测某疾病发生概率为 30%,那在 100 个被评估的患者中,理论上应该有 30 人左右真的患病,这才是校准良好的模型。可现实却很残酷,模型失准(miscalibration)的情况屡见不鲜。一旦模型失准,后果可能很严重。以心肌梗死风险模型为例,如果预测概率比真实概率低 20 倍,高风险患者可能被误判为低风险,从而错过预防性治疗的最佳时机,这无疑将患者置于危险境地。
当发现模型在外部验证中失准后,该怎么办呢?以往,很多人会选择 “反射性重校准(reflexive recalibration)”,也就是不考虑模型失准的根本原因,直接对模型的系数或截距进行数学调整。但这种做法真的靠谱吗?为了弄清楚这个问题,来自斯坦福大学医学院(Stanford School of Medicine)、纽约大学格罗斯曼医学院(NYU Grossman School of Medicine)等机构的研究人员展开了深入研究。他们的研究成果发表在《Diagnostic and Prognostic Research》上,为解决模型失准问题提供了全新的思路和方向。
研究人员在研究过程中,主要通过对大量已发表文献的综合分析来开展研究。他们广泛收集了不同疾病领域、不同类型风险预测模型在外部验证过程中出现失准问题的案例,从各个角度剖析这些案例中模型失准的原因,以此探究反射性重校准的利弊,并寻找更合理的解决策略。
反射性重校准的现状与问题
反射性重校准,简单来说,就是在发现模型失准后,不考虑背后深层的因果机制,直接进行数学上的调整。在众多研究中,不乏反射性重校准的例子。著名的弗雷明汉冠心病(CHD)风险模型,在不同人群中评估时,多次出现失准情况,进而被反射性重校准。最初,该模型是在以白人为主的欧洲人群中开发并内部验证的。当研究人员将其应用到更具多样性的队列时,发现对日本裔美国男性、西班牙裔男性和美国原住民女性的风险预测存在高估现象。于是,研究人员通过替换风险因素的均值和发病率等数据,对模型进行重校准,可却没有深入探讨为何这些特定人群会出现失准。类似地,在针对澳大利亚原住民、中国人群的研究中,弗雷明汉模型也出现失准,研究人员同样采取了反射性重校准的方法,却都忽略了失准的根本原因。
不仅如此,在方法学文献中,也常常推荐在发现模型失准后进行反射性重校准。有的研究甚至提出,当模型在验证阶段预测不准时,就应考虑更新算法,而且认为简单地调整截距比重新估计所有系数更可取。更有甚者,一些评估预测模型的统计方法中,直接将非参数重校准方法固定在流程里,模型在评估过程中会自动重校准,根本不考虑失准的程度。但这种做法真的能解决问题吗?研究人员认为并非如此。
反射性重校准忽视因果路径的危害
反射性重校准看似让模型在数据上变得 “好看” 了,可实际上却掩盖了很多影响模型临床应用价值的关键问题。研究人员通过一个假设的癌症术后复发预测模型(“Model X”)来解释这一现象。假设 “Model X” 是基于医院 A 的患者数据构建的,医院 B 的研究人员对其进行外部验证时发现模型失准,于是重校准得到 “Model X”。如果失准原因是两家医院在病理评估上存在差异,那么情况就变得复杂了。有可能医院 A 的病理评估方法更普遍,此时 “Model X” 可能更适用于大多数人群;也有可能医院 B 的方法更常见,那 “Model X” 或许更合适;还有可能两家医院的方法不同但都被广泛使用,这就需要医院根据自身的病理评估方法来选择模型。更复杂的是,如果存在多种常见的病理评估方法,可能还需要构建新的模型来适应不同情况。在这些情况下,如果盲目地采用重校准后的模型,可能会带来严重后果,比如在某些场景下导致患者接受不恰当的治疗,影响治疗效果。
理解 “本地需求” 的困境
在模型应用过程中,研究人员常常会提到根据 “本地需求” 对模型进行重校准。比如,有人提出通过调整截距来使临床预测模型适应本地情况,认为这比重新开发模型更高效,能利用已有的预测信息。还有研究针对急性心力衰竭患者的死亡率预测模型,建议进行区域重校准,认为这样可以显著提升模型性能。然而,“本地需求” 的定义十分模糊。到底什么算一个 “区域” 呢?是按大洲划分,还是细化到国家、地区,甚至更小的单位?以伦敦和英格兰东北部的患者为例,他们之间的差异可能比伦敦和巴黎的患者更大;纽约市不同区域的患者差异,也可能大于纽约州和内布拉斯加州的患者差异。此外,还有研究提出 “位点特异性验证(site-specific validation)”,虽然这种方法能更精准地评估模型在特定地点的性能,但在实际操作中,由于需要大量的数据基础设施和足够的患者数量,目前很难实现。比如,美国有大约 5000 家医院设有重症监护病房(ICU),很多 ICU 床位不足 5 张,要对脓毒症预测模型进行 “位点特异性” 验证,成本和时间消耗巨大。同样,对于慢性心血管代谢疾病的预测模型,研究人员发现不同 “环境” 下疾病发病率不同会导致模型失准,但 “环境” 的定义也很模糊,它可能受到疾病定义、吸烟率、饮食、运动和他汀类药物使用等多种因素影响,这些因素在不同地区变化无常。
探究失准因果机制的替代方法
鉴于反射性重校准的种种问题,研究人员提出,当发现模型失准后,不应急于进行数学调整,而应先深入探究背后的因果机制。其实,已有研究人员意识到这一问题,比如 Jones 等人建议构建数据生成过程的因果图,以理解模型部署过程中失准的可能机制;Subbaswamy 和 Saria 也提出要主动检查潜在因果机制,而不是被动地进行调整,以创建可转移的模型。这一方法也符合良好统计实践的一般原则。研究人员通过文献调研,列举了多个探究失准根本原因的例子。例如,Ankerst 等人在研究前列腺活检结果预测模型时发现,不同环境下前列腺癌家族史的记录方式不同,导致模型系数存在差异。在研究中,家族史记录往往比较宽泛,而临床实践中只有显著的家族史才会被记录,这就影响了模型的预测结果。又如,Ashburner 等人研究心房颤动风险预测模型(CHARGE - AF)时发现,该模型在不同队列中的校准情况不佳,原因是开发队列和验证队列的潜在风险存在差异。CHARGE - AF 模型是在社区低风险人群中开发的,而在学术医院的高风险卒中患者中进行测试,不同队列的基线风险不同,导致模型失准。这些例子表明,确定模型失准的多因素原因虽然面临诸多挑战,需要专业知识和高质量数据,但即便只是部分了解这些机制,也能为研究人员提供有价值的信息,帮助他们做出更合理的模型调整,提升模型的适用性,而不是盲目地进行反射性重校准。
研究结论明确指出,反射性重校准是一种误导性的方法。在面对模型失准问题时,研究人员应致力于理解失准背后的因果路径。通过探究因果机制,不仅能帮助确定如何更好地更新和应用模型,还能产生具有普遍适用性的知识,可推广到其他应用场景。这一研究意义重大,为风险预测模型的优化提供了科学依据,有助于提升医疗决策的准确性,减少因模型失准导致的不良医疗决策,从而更好地保障患者的健康。未来,在开发和应用风险预测模型时,充分考虑因果机制将成为提升模型质量的关键,有望推动医疗领域风险预测水平迈向新的台阶。