编辑推荐:
在疾病预测研究中,为探究预测曲线、解释变异(EV)、必要性程度(DN)和充分性程度(DS)的关联,研究人员分析新冠患者数据。结果表明,DN 和 DS 可由预测曲线面积比例表示,且与 EV 密切相关。这为评估预测标记物提供新视角。
在医学研究的广阔领域中,疾病预测一直是备受瞩目的焦点。准确预测疾病的发生、发展及预后,对于临床决策的制定、患者的治疗和管理意义重大。传统上,研究人员使用多种指标来评估疾病预测的准确性和有效性,如比值比(odds ratio,OR)等。然而,这些指标在实际应用中存在一定的局限性。比如,OR 难以直接比较不同类型变量对疾病风险的影响程度 ,使得研究人员难以全面、直观地了解各种因素在疾病预测中的作用。为了突破这些困境,深入挖掘疾病预测的潜在信息,来自奥地利维也纳医科大学(Medical University of Vienna)的研究人员开展了一项极具价值的研究。他们的研究成果发表在《BMC Medical Research Methodology》杂志上,为疾病预测领域带来了新的曙光。
研究人员在本次研究中运用了多种关键技术方法。首先,利用逻辑回归模型(logistic regression model)对数据进行分析,该模型能有效探索变量与疾病结局之间的关系。其次,以新冠患者住院死亡数据为样本队列,这些数据详细记录了患者的临床信息和实验室检测指标等,为研究提供了丰富的信息。通过这些数据和模型,研究人员计算出各种预测指标,如解释变异(EV)、必要性程度(DN)和充分性程度(DS)等,从而深入探究各因素在疾病预测中的作用。
预测曲线(Predictiveness curves)相关结果
预测曲线旨在整合标记物的预测能力和分类性能。研究发现,在预测曲线中,横坐标代表预测变量分布的分位数(q) ,纵坐标表示事件发生的风险(R (q))。当预测曲线在某一分位数 q0处取值等于事件患病率 P (D) 时,基于该标记物的条件预测等于无条件预测。此外,预测曲线与 P (D) 之间的几何区域 AN和 AS大小相等(假设风险模型全局校准)。例如,在预测新冠患者第 4 天后住院死亡风险时,年龄作为预测变量,P (D)=0.147,q0=0.64 ,AN=AS=0.066。这表明预测曲线能直观展示不同风险分位数下的疾病发生风险,为后续研究奠定了基础。
预测指标(Measures of predictiveness)相关结果
- 解释变异(Explained variation):EV 用于量化当无条件预测被基于某一预测变量的条件预测取代时,预测不准确程度的相对降低。研究表明,它等于结果变量中由预测变量解释的变异比例,可用于量化和比较预后因素的重要性。在本次研究中,年龄、实验室参数等不同预测变量的 EV 值不同,如实验室参数的 EV 为 0.30,年龄的 EV 为 0.23 ,发热的 EV 为 0.01,这清晰地展示了各因素对疾病预测的贡献差异。
- Tjur 系数(Tjur’s coefficient of determination,CD):CD用于衡量模型区分成功和失败的能力,等于事件发生和未发生时预期条件事件概率的差值。研究发现,Tjur 的另一个指标 R2mad与 EVind的插件估计值相等,且在本研究数据中,年龄作为预测住院死亡率的指标时,CD=0.22 ,这进一步说明了不同预测指标之间的关联。
- 总增益(Total gain,TG)和标准化总增益(Standardized total gain,STG):TG 被定义为预测曲线与 P (D) 之间的绝对面积,而 STG 是 TG 标准化后的指标。研究显示,STG 等于高于平均风险差异(Above average risk difference,AARD),也等于在 P (D) 处评估的 Youden 指数。通过计算不同预测变量的 STG,可对其解释能力进行标准化比较,如年龄和实验室参数的 STG 值有助于直观判断两者在疾病预测中的相对重要性。
必要性和充分性程度(Degrees of necessity and of sufficiency)相关结果
- 定义和计算:必要性程度(DN)和充分性程度(DS)用于衡量一个因素对事件发生的必要和充分程度。研究给出了两种计算 DN 和 DS 的变体,其中变体 1 考虑了条件概率在 “保护” 和 “有害” 范围内的变化,更受青睐。研究表明,DN1≥DN2 ,DS1≥DS2 ,且 DN2和 DS2的乘积为解释变异的比例提供了下限,DN1和 DS1的乘积通常与 EV 接近。
- 与预测曲线的关系:研究通过数学证明得出,DN2等于预测曲线与 P (D) 在 “保护” 范围内的面积 AN相对于该范围内 P (D)?q0的比例,DS2等于预测曲线与 P (D) 在 “有害” 范围内的面积 AS相对于 (1 - P (D))?(1 - q0) 的比例。这一发现建立了 DN、DS 与预测曲线之间的紧密联系,使得可以从预测曲线的面积比例直观理解 DN 和 DS。
二分标记物(Dichotomous markers)相关结果
对于二分预测变量,如入院时发热这一指标,其预测曲线为阶梯函数。研究发现,此类变量的 AN和 AS对应面积较小,DN 和 DS 值较低。此外,当对连续预测变量(如年龄)进行二分处理时,DN2、DS2和 STG 保持不变,但 DN1、DS1和 EVind会下降,这进一步证实了二分预测变量可能导致信息丢失,应谨慎使用。
研究结论表明,预测曲线中与事件患病率水平线之间的上下区域面积,可分别解释为必要性程度和充分性程度。同时,预测曲线中的某些区域和距离与预测性指标密切相关。这一研究成果为评估预后因素或因素集的重要性提供了直观的方法,有助于研究人员更准确地选择预测疾病的关键因素,优化疾病预测模型。在讨论部分,研究人员指出,预测曲线及相关指标的应用基于代表性样本,且应使用校准模型进行比较。此外,研究中使用的方法部分已扩展到生存数据领域,为后续研究提供了更广阔的方向。总的来说,该研究为疾病预测领域提供了全新的视角和有力的工具,有望推动临床疾病预测和管理的进一步发展。