广泛的基准测试方法,从有限的统计特征估计外部模型的性能

【字体: 时间:2025年02月05日 来源:npj Digital Medicine 12.4

编辑推荐:

  近年来,医疗保健领域的预测机器学习模型发展迅速,如在 2020 - 2022 年间就有数百种用于诊断和预测 2019 冠状病毒病(COVID - 19)的模型被开发或验证。但这些模型常基于有限的 “内部” 数据源训练,当应用于 “外部” 数据时,性能可能下降。例如,广泛应用的 Epic Sepsis Model 和房颤患者的各种中风风险评分模型在外部数据应用中就出现了性能恶化的情况。因此,验证模型在不同数据源间的可迁移性,即外部验证,成为临床预测模型开发生命周期的标准步骤。

  

利用有限统计特征评估模型外部性能的方法基准测试解读


在医疗领域,预测模型的广泛应用为疾病诊断、预后评估等提供了有力支持。然而,当模型应用于训练数据以外的外部数据源时,其性能往往会受到影响。近日,来自以色列 KI Research Institute 的 Tal El - Hay、美国 Janssen Research and Development 的 Jenna M. Reps 以及以色列 KI Research Institute 的 Chen Yanover 在 npj Digital Medicine 期刊上发表了题为 “Extensive benchmarking of a method that estimates external model performance from limited statistical characteristics” 的论文。这一研究成果对于加速模型部署、提高模型在不同数据环境下的有效性具有重要意义,为临床预测模型的发展提供了关键的技术支撑和实践指导 。


一、研究背景


近年来,医疗保健领域的预测机器学习模型发展迅速,如在 2020 - 2022 年间就有数百种用于诊断和预测 2019 冠状病毒病(COVID - 19)的模型被开发或验证。但这些模型常基于有限的 “内部” 数据源训练,当应用于 “外部” 数据时,性能可能下降。例如,广泛应用的 Epic Sepsis Model 和房颤患者的各种中风风险评分模型在外部数据应用中就出现了性能恶化的情况。因此,验证模型在不同数据源间的可迁移性,即外部验证,成为临床预测模型开发生命周期的标准步骤。


传统的外部验证需要在外部数据源上重新定义和提取数据元素(目标单元、特征、结果),这一过程艰巨且繁琐,即便使用标准化数据结构,外部验证仍是一项费力的任务,甚至可能是模型开发中的迭代过程。在此背景下,研究人员此前开发了一种仅使用有限的外部描述性统计来估计预测模型在外部数据源上性能的方法,本研究旨在对该方法在实际临床环境中的性能进行评估。


二、研究材料与方法


(一)数据来源


研究使用了五个美国观察性医疗保健数据库,包括四个保险索赔数据源(Merative? MarketScan? Commercial Database,CCAE;Merative? MarketScan? Multi - State Medicaid Database,MDCD;Merative? MarketScan? Medicare Supplemental Database,MDCR;Optum?’s de - identified Clinformatics? Data Mart Database,Clinformatics?)和一个电子健康记录(EHR)数据源(Optum? de - identified Electronic Health Record dataset,Optum? EHR)。这些数据资源均映射到观察医疗结果伙伴关系(OMOP)通用数据模型,方便进行统一分析。


(二)研究人群与结局


目标人群为首次被诊断患有重度抑郁症(MDD)且在首次诊断后 30 天内有抗抑郁药处方记录的患者。排除在数据库中观察期少于 365 天或有躁狂、痴呆、精神病病史的患者。研究开发模型以预测患者在索引日期后一年内发生癫痫、腹泻、骨折、胃肠道(GI)出血和失眠这五种结局的风险,结局基于相应的诊断记录定义,癫痫和 GI 出血还要求诊断发生在住院或急诊室就诊期间。


(三)特征与模型


使用三个候选特征集训练预测模型:小特征集仅包含患者的性别和索引时年龄(以 5 年为间隔进行独热编码);中特征集包括性别、年龄独热编码和 64 个表型预测因子;大特征集则包含性别、年龄独热编码以及数千个代表患者在索引前是否有特定医疗状况和药物代码记录的独热编码特征。


采用逻辑回归(L1 正则化)和梯度提升机开发预测模型。在每个数据源中,针对每个预测任务,将数据分为 75% 训练数据和 25% 测试数据,使用训练数据进行 3 折交叉验证以确定最佳正则化超参数,最后用最佳超参数和所有训练数据拟合模型。通过将模型应用于测试数据进行内部验证,将模型应用于其他四个数据源的标记数据进行外部验证,同时使用外部队列的模型重要特征的汇总统计信息来估计外部性能。


(四)性能指标


采用受试者工作特征曲线下面积(AUROC)评估模型的区分能力;使用校准斜率(calibration - in - the - large)评估模型校准,即测试研究人群中平均预测风险与真实观察风险的比率;通过 Brier 评分评估整体准确性,即预测风险与真实标签之间的平方差之和。由于测试队列的结局率高度不平衡,还使用缩放后的 Brier 评分(scaled Brier score)评估整体准确性。


(五)外部性能估计方法


该方法是之前研究方法的可扩展变体。给定分类器、内部测试队列和外部队列的汇总统计信息,首先为内部队列中的单元分配权重,使加权后的内部队列统计属性与外部队列相似。具体通过求解优化问题,寻找一组非负权重,使加权后的内部统计量等于外部统计量,同时使用 Kullback - Leibler(KL)散度衡量权重与均匀分布的接近程度。然后,使用加权后的内部队列上的分类器预测和真实标签计算性能指标。在本研究中,针对大规模问题,还开发了更高效的近似加权算法,通过指数梯度算法求解优化问题,并以均匀权重初始化算法。


三、研究结果


(一)基准测试概述


研究对使用有限统计特征估计模型外部性能的方法准确性进行基准测试。在五个美国数据源中定义目标队列,在每个数据源中训练预测不同结局的模型,提取其余四个外部队列的总体统计信息来估计模型的外部性能,并与实际外部性能进行比较。各数据源中目标队列的基线特征和结局患病率存在显著差异,如年龄分布在不同数据源间差异很大,MDCR 中 65 岁及以上老年人占比达 97%,而 CCAE 中仅占 0.7%。


(二)估计方法的评估


该加权算法的成功取决于提供的统计集。在 400 种配置的测试中,部分使用 MDCR 作为内部源的配置未能估计外部性能,如 XGBoost 癫痫模型在外部数据集 MDCD 上、失眠模型在 Optum? EHR 上以及腹泻模型在 MDCD 和 Optum? EHR 上的估计失败,还有中型逻辑回归癫痫模型在外部数据集 CCAE 上也失败。


比较内部训练的结局预测模型的实际与估计外部 AUROC 发现,多数情况下,小型线性模型的内部和外部性能均低于其他模型,但估计的和实际的外部性能相似。如在 CCAE 上训练具有中型特征集的线性腹泻模型时,内部 AUROC 为 0.61,在 MDCR 中的实际外部 AUROC 为 0.587,估计的 AUROC 为 0.585。


可视化基准算法的误差分布发现,AUROC 估计误差的上四分位数通常低于 0.02,而内部 - 外部 AUROC 差异值更高;其他指标(校准斜率、Brier 评分、缩放后的 Brier 评分)的准确性差异更明显。例如在 MDCR 中,校准差异为 0.013(0.003 - 0.050),而内部 - 外部绝对差异为 0.329(0.167 - 0.836)。


(三)考虑的特征集的影响


测试使用不同特征集进行加权的效果发现,使用与模型无关的特征在某些情况下无法获得合适的权重,在其他情况下结果准确性较低。比较使用仅重要特征(系数绝对值≥0.1)和使用所有特征对线性模型性能的估计,发现使用低系数特征会导致与使用无关特征类似的结果,相对于使用重要特征,近似效果较差。总体而言,执行评估的良好实践是使用特定于模型的特征集,并根据其在模型中的重要性进行选择。


(四)样本量对估计准确性的影响


以 Clinformatics? 为内部数据源、CCAE 为外部数据源,使用具有大特征集配置的逻辑回归模型,测试估计算法对内部和外部样本量的稳健性。结果表明,内部和外部子样本量均对性能指标有影响,但内部样本量的影响更明显。当内部样本量为 1000 单位时,算法在大多数情况下无法收敛,2000 单位时部分情况也无法收敛,且方差和上四分位数较大,误差收敛较慢。良好的准确性要求内部样本量超过 32000 单位,考虑到结局患病率较低,这相当于约 150 - 2000 个病例,病例和对照中较小群体的大小可能是准确性的主要决定因素。


四、研究结论与讨论


研究证明了在无法获取外部单位级数据时,仅使用内部数据和有限外部统计信息来估计预测模型外部性能的方法的准确性。该方法的 AUROC 近似误差 95% 分位数为 0.03,校准斜率为 0.08,Brier 评分为 0.0002,缩放后的 Brier 评分为 0.07。研究建议该方法使用的特征数量最好不超过数百个,因为更大规模问题尚未测试。


尽管测试队列的结局患病率较低,可能使一些性能指标(如 Brier 评分)不可靠,但该方法的估计仍然准确。研究还发现,估计准确性取决于外部队列的样本量,更在很大程度上取决于内部队列的样本量。此外,近似算法的准确性依赖于内部队列的多样性、特征的正确选择以及共享统计信息的变换。为确保准确性,建议检查内部和外部统计信息的差异,避免内部队列中存在未代表的外部子群体,选择具有不可忽视预测重要性的特征及其与结局的交互作用的统计信息进行重新加权。


本研究的贡献不仅在于进一步验证了所测试框架,还通过真实世界数据集的实验更全面地揭示了该框架的优缺点,明确了准确估计的必要条件,并针对实际挑战进行了改进,如处理稀疏和弱信息特征的指南、应对极端分布变化的诊断工具以及处理大型数据集的新定制优化算法,这些都集成在一个 R 包中。与以往研究相比,该方法依赖更常见的场景,即外部统计信息可用但无法完全访问数据集,在依赖外部特定信息进行准确估计和缺乏详细数据访问之间取得了平衡。


然而,该研究也存在一些局限性。方法的准确性依赖于内部数据集多样性假设的有效性以及特征和变换的正确选择,需要仔细评估提供的诊断信息和考虑包含的特征;测试主要集中在美国数据源,可能忽略地理差异;目前该方法仅限于具有数百个特征的模型;仅使用映射到 OMOP 格式的数据源,避免了标准化队列定义和特征提取的挑战,但数据偏移可能仍然存在,未来可测试标准化水平对估计准确性的影响;估计准确性依赖样本量,内部队列需要数百到数千个病例;仅使用了部分性能指标评估方法准确性,其他指标未被考虑。


尽管存在局限性,该方法在仅提供外部汇总统计信息但无法获取单位级数据的情况下非常有用,特别是在协作项目中,模型评估者可以请求外部合作者提供汇总统计信息,测试多个模型并选择最优模型,加快模型开发过程。未来的研究可以通过在非美国数据集上进行更多基准测试、捕捉性能随时间的变化趋势以及测试在有限或预先计算的统计信息下的性能等方式,进一步提高该评估方法的可用性。


综上所述,本研究为临床预测模型的外部性能评估提供了一种可行且有价值的方法,在模型部署前的初步评估和协作模型开发中具有重要的应用潜力,为医疗领域预测模型的发展和优化提供了重要参考 。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号