《GeroScience》:External validation of a US claims-based frailty indicator and development of a population-specific model for the German healthcare system
编辑推荐:
衰弱可增加老年人的不良结局风险,是预防性照护的重要靶点。临床衰弱测量工具虽已确立,但由于常规医疗记录中功能数据有限,难以大规模应用。基于索赔数据的衰弱预测模型为人群层面的风险分层提供了实用方法,但此类模型多在特定医疗体系中开发,缺乏外部验证。本研究旨在对外验证
衰弱可增加老年人的不良结局风险,是预防性照护的重要靶点。临床衰弱测量工具虽已确立,但由于常规医疗记录中功能数据有限,难以大规模应用。基于索赔数据的衰弱预测模型为人群层面的风险分层提供了实用方法,但此类模型多在特定医疗体系中开发,缺乏外部验证。本研究旨在对外验证并重新校准基于索赔的衰弱指标(Claims-Based-Frailty-Indicator, CFI),同时构建适用于德国医疗环境的基于索赔数据的衰弱模型。研究人员利用柏林倡议研究(Berlin Initiative Study)的数据,该研究为老年人群队列,采用衰弱表型(Frailty Phenotype)进行评估,并与个人健康保险索赔数据及死因数据相链接。CFI的外部验证通过区分度(Discrimination)和校准度(Calibration)进行评估。此外,研究人员构建了一种新的基于索赔数据的衰弱模型。模型性能及应用通过其与死亡率和住院率的关联进行评估。报告遵循TRIPOD(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis Or Diagnosis)声明。在1,151名参与者中(平均年龄84.4岁;女性占55%),CFI显示出良好的区分度(AUC 0.78),但校准度较差;对截距进行重新校准后,校准度得到改善。通过最大化Youden指数确定的衰弱最佳阈值对应的预测概率为0.39。新模型的区分度有所提高(AUC 0.82)。预测衰弱与死亡率和住院率的关联与衰弱表型相似。基于索赔数据的衰弱模型可在德国医疗体系中进行验证、重新校准和适应性调整,为人群层面的衰弱评估提供了可行方法,或可支持老年人群的健康服务研究、风险分层和照护规划。
衰弱是老龄化人口面临的重大挑战之一,反映了多维度的新发脆弱状态,导致跌倒、残疾、住院、机构化和死亡等不良健康结局的风险增加。衰弱源于多个器官系统生理功能储备、力量和恢复力的下降,其患病率随年龄增长而升高,75岁及以上成年人中患病率为15%至25%,85岁以上超过40%。鉴于人口结构变化,衰弱具有可逆性的特点,成为预防和治疗干预的优先目标。将衰弱整合到临床决策中有助于超越传统的疾病导向照护模式,实现对老年人的整体管理。当前推荐对接受照护的老年人进行机会性或针对性衰弱筛查,但面临高质量研究缺乏等挑战。在人群层面测量衰弱有助于将整体照护理念转化为公共卫生和健康服务应用,但现有工具如Fried衰弱表型或衰弱指数(Frailty Index)需要详细的功能和生理数据,在综合性老年评估之外的大规模评估中难以获得。行政索赔数据和电子健康记录覆盖广泛人群和纵向照护轨迹,可为估计衰弱、支持风险分层和资源配置提供实用基础。
基于索赔数据的衰弱代理指标利用常规收集的诊断、手术和 Utilization 数据来近似评估衰弱并预测不良结局,有望实现老年人群的大规模识别。然而,大多数现有指数在北美或英国医疗体系中开发,由于编码实践和医疗结构差异,其适用性可能受限。本研究旨在对外验证基于索赔的衰弱指标(CFI),开发适用于德国医疗环境的新模型,并将其应用于死亡率和住院率等结局的关联分析。
柏林倡议研究(BIS)为本研究数据来源,该研究为基于人群的老年队列,最初关注肾功能。2009年11月至2011年7月期间,共纳入2,069名70岁及以上参与者。纳入标准包括柏林最大法定健康保险基金AOK的当前成员资格;排除透析、肾移植史或养老院居住者。参与者每两年复评一次,无法到研究中心者进行家访。衰弱评估在第三次随访(2016至2017年)时实施,构成本研究基线。1,166名参与第三次随访者中,8人因缺少衰弱评分数据、7人因缺少索赔数据被排除,最终样本为1,151人。数据集于2023年11月23日关闭。研究经Charité – Universit?tsmedizin Berlin伦理委员会批准(EA2/009/08),所有参与者签署书面知情同意。
衰弱状态采用改良Fried衰弱表型评估,五个项目中三个未作修改(体重下降、疲乏、无力);低体力活动定义为每周体力活动少于一次且每次不足30分钟;迟缓通过Timed Up and Go测试评估,≥15秒为满足标准。三项及以上衰弱者归类为衰弱,其余为非衰弱。
以下变量源自BIS数据:年龄、性别、CASMIN教育分类简版、独居情况、吸烟状态、自评健康(优秀/良好 vs. 中等/差/很差)、体重指数(<24.9、25–29.9或≥30 kg/m
2)、高血压(服用至少一种降压药,除袢利尿剂外)、估计肾小球滤过率(GFR,<60或≥60 ml/min/1.73m2,采用EKFC(crea/cysC)方程估算)、白蛋白尿(尿白蛋白/肌酐比值≥30 mg/g)、多重用药(≥5种药物)、认知障碍、糖尿病(血红蛋白A1c≥6.5%或服用降糖药)及Charlson合并症指数(CCI)。主要研究数据由AOK的二次健康索赔数据补充,用于构建候选预测因子。
CFI最初基于ICD-9编码的疾病定义。由于本数据集采用ICD-10编码,候选预测因子的定义通过标准化映射方法从ICD-9转换为ICD-10。统计描述分析呈现基线特征。预测模型(CFI)的验证和开发基于链接后的数据集,预测因子来自索赔数据,结局(衰弱状态)来自主要研究数据。
按照TRIPOD建议,首先评估CFI的外部性能,包括区分度、校准度和分类指标。区分度采用c统计量(受试者工作特征曲线下面积,AUC)及95%置信区间评估。校准度通过校准图(比较预测概率与真实衰弱比例)、校准-in-the-large(截距)和校准斜率检验,并采用Hosmer-Lemeshow拟合优度检验。计算预设概率阈值的敏感性和特异性,报告原始出版物推荐的三个阈值的准确率。此外,通过最大化Youden指数确定最佳 cut-off。外部验证分析中,CFI的原始模型系数未作修改直接应用。敏感性分析中探索截距的重新校准。
考虑到CFI在美国Medicare索赔数据(ICD-9编码)中开发,而本数据集为德国索赔数据(ICD-10编码),编码实践和医疗体系差异可能限制直接外部验证的有效性。因此,研究人员比较了多种预测变量选择策略:使用所有预选变量、仅使用CFI变量(不应用原始系数)、LASSO(Least Absolute Shrinkage and Selection Operator)回归、双向逐步选择以及随机森林。模型通过交叉验证评估,以AUC比较区分性能。最终基于原始模型的建模方法,采用LASSO罚函数的多变量logistic回归模型开发新模型。LASSO用于收缩系数并进行变量选择,通过十折交叉验证确定最优λ参数以平衡预测准确性和模型稀疏性。新模型性能同样通过区分度和最大化Youden指数评估阈值进行评估。为评估净效益和潜在临床应用,对重新校准的CFI和新开发的LASSO模型进行决策曲线分析(Decision Curve Analysis)。
其次,分析各衰弱测量(衰弱表型和预测衰弱概率)与四个结局的关联:5年内死亡、5年内首次住院、死亡时间和首次住院时间。衰弱概率按四分位数 cut-off或最大化Youden指数阈值进行二分类。时间-事件结局采用Cox比例风险回归估计风险比(HR)及95%置信区间(CI);二元结局采用logistic回归估计比值比(OR)及95% CI。所有模型校正年龄和性别以保持与Segal等原始分析的可比性。统计分析使用R(版本4.5.1)完成。
研究结果显示,1,151名参与者的平均年龄为84.4岁(标准差5.7),女性占55%,398人(34.6%)为衰弱。约60%受教育程度低,半数独居,45%自评健康为优秀或良好。超过半数参与者服用五种及以上常规药物(多重用药:55.6%),23.3%此前六个月内曾住院。中位合并症数为6(四分位距4–8)。衰弱个体年龄更大(87.3岁 vs. 82.9岁),较少报告优秀或良好健康(23.9% vs. 56.0%),更多独居(55.5% vs. 43.4%),多重用药患病率更高(71.6% vs. 47.1%),合并症更多(中位8 vs. 5),此前六个月内住院更频繁(33.2% vs. 18.1%)。
CFI外部验证结果显示,在德国索赔数据集中,区分度可接受,AUC为0.78(95% CI 0.75–0.81),与原始研究报道的0.75相当。但校准图显示系统性地高估了衰弱风险,截距为?0.786,斜率为1.078;Hosmer-Lemeshow检验显著(p<0.0001),提示拟合不足。应用原始研究提出的三个阈值(0.12、0.20和0.25)进行分类时,在398名衰弱个体中正确分类为衰弱者分别为395、385和376人;但在753名非衰弱个体中,误分类为衰弱者分别为710、600和547人(特异性分别为5.7%、20.3%和27.4%)。总体分类准确率分别为0.38、0.47和0.51,大多数误分类发生在非衰弱个体中。使用最大化Youden指数的阈值(预测概率0.58)改善了分类,敏感性69%,特异性74%。敏感性分析中,对模型截距进行重新校准后,AUC和校准斜率保持不变,新校准截距为0.038,对应预测模型截距为?9.77(原始为?9)。Hosmer-Lemeshow检验不显著(p=0.5339),提示拟合良好。重新校准模型最大化Youden指数的阈值为预测概率0.39。决策曲线分析显示,使用重新校准模型识别衰弱个体比假设所有患者均衰弱(评估所有人)或不衰弱(不评估任何人)提供更大的临床净效益。
新模型开发方面,基于德国索赔数据构建新的诊断衰弱预测模型(n=1,151;34.6%衰弱)。多种变量选择方法的交叉验证显示相似的良好区分度。最终模型采用LASSO方法,包含28个预测因子。最终模型区分度良好,AUC为0.82(95% CI 0.79–0.84)。使用最大化Youden指数阈值(预测概率0.52)时,敏感性75%,特异性77%。相比重新校准的CFI,LASSO模型在所有阈值概率范围内显示出略高的净效益。
预测衰弱与死亡率及住院的关联分析显示,中位随访7.1年(四分位距7.0–7.2)期间,1,151人中有548人(47.6%)死亡,1,012人(87.9%)至少住院一次。预测衰弱概率无论是按四分位数分类还是使用阈值二分类,在未校正模型中与5年死亡率、5年住院率、死亡时间和首次住院时间均显著相关。校正年龄和性别后关联明显减弱,因为这些变量已纳入衰弱概率的预测。新开发模型的预测衰弱概率与结局的关联与BIS中评估的衰弱表型观察到的关联相似。
讨论部分,研究人员首先指出外部验证对评估预测模型可迁移性、确保新人群中可靠风险估计至关重要。结合详细老年评估数据的大型电子健康或登记数据集仍难以获得,包含综合衰弱评估和个人水平索赔数据的社区老年人数据集尤为稀缺,极大限制了基于索赔数据衰弱预测模型的外部验证机会。本研究通过链接初级(BIS)和次级(AOK索赔)数据,构建了大型互补且有效的健康数据集,使此外部验证成为可能。
基于索赔数据的衰弱预测模型已有广泛的应用提议,包括预测当前衰弱状态、未来衰弱发生、不良结局和医疗利用等。这些模型反映了风险分层方面日益增长的兴趣,但可能同时捕获衰弱与多病共患、残疾和医疗利用等相关维度的重叠,这是基于索赔数据的固有限制,因其不直接测量生理功能储备或身体表现。尽管如此,此类模型在无法直接进行表型衰弱评估的环境中仍可用于人群层面分析。
非针对住院患者的基于索赔数据衰弱模型主要基于Medicare数据开发,并基于两种最常用的衰弱框架:衰弱表型和衰弱指数。此前尚未证实这些模型是否可迁移至Medicare人群之外。本研究验证的CFI最初在平均年龄比本研究年轻约10岁的队列中开发(75.0岁 vs. 84.4岁)。由于衰弱反映与年龄相关的生理功能储备、力量和恢复力下降,其患病率随年龄增长显著升高。因此,十年的平均年龄差异导致衰弱风险分布不同(11% vs. 34%)。应用CFI及其建议阈值时,尽管区分度可接受,大多数个体被识别为衰弱。这种病例构成差异是预测模型跨人群迁移时的常见现象,通常表现为保留区分度但校准度恶化。当发生与年龄相关的基线风险偏移时,重新校准模型是一种可行方法。本研究中,通过重新校准模型截距显著改善了校准度,这是纠正基线风险错位而不修改预测系数的标准有效方法。
重新校准后的良好表现可能反映了尽管年龄分布存在差异,但预测因子-结局关系在广泛可比的医疗设置中仍然稳健。然而,当模型迁移到临床特征或医疗体系差异更显著的人群时,仅重新校准截距可能不足,可能需要包括斜率重新校准或系数重新估计等更广泛的更新策略。
新开发的德国索赔数据模型显示相似的区分度。重要的是,该模型预测衰弱与全因死亡率和住院率强相关,且关联与BIS中评估的衰弱表型相似,表明该模型捕获了社区老年人中具有临床意义的风险梯度,预测衰弱在基于索赔数据的健康服务研究中具有风险分层和结局预测的潜在效用。两种模型均可帮助识别衰弱风险增加的个体,使其可能受益于更密切的临床监测、针对性干预或预防性照护策略。决策曲线分析进一步支持两种模型在人群层面风险分层中的潜在效用。
本研究的优势包括:高龄研究人群、详细的表型评估和纵向设计;遵循TRIPOD指南的严谨方法学方法;通过链接初级和次级数据构建的大型互补有效健康数据集。局限性包括:衰弱采用改良Fried表型评估,可能引入一些错分;不同数据库的使用(原始ICD-9与本研究ICD-10),尽管预测因子基于较宽泛定义且映射经过自动化协议和人工验证,该差异应未显著改变预测因子测量;人群特征和合并症负担可能存在差异,但除平均年龄差异外设置总体可比,且已通过重新校准解决;新开发模型在潜在应用于健康服务研究前仍需外部验证。
研究结论为:CFI的外部验证在本队列中显示出校准和分类局限性,主要归因于病例构成异质性,特别是与开发人群相比的平均年龄差异。通过截距调整重新校准CFI以及开发人群特异性模型,显著改善了预测性能,并与衰弱表型评估的死亡率和住院率显示出相似的稳健关联。这种重新校准方法的强性能表明,在考虑人口特征差异(特别是年龄分布和由此产生的衰弱患病率)的前提下,该模型可以以最小调整迁移到其他医疗体系。本队列中观察到的衰弱患病率与多国相似年龄人群一致,支持该方法的更广泛适用性。重新校准模型和新开发模型均为使用索赔数据的健康服务研究提供了宝贵工具,可用于老年人群中衰弱的调整或分层。