基于电子健康记录的骨髓纤维化DIPSS和DIPSS Plus风险评分自动化决策系统:提升预后评估准确性与可用性

【字体: 时间:2025年10月11日 来源:ESMO Real World Data and Digital Oncology

编辑推荐:

  本文推荐一项创新研究,首次开发并验证了集成于电子健康记录(EHR)的自动化决策系统,用于计算骨髓纤维化(MF)的动态预后评分系统(DIPSS)及其增强版(DIPSS Plus)。研究表明,自动化评分与医师手动评分具有相似的预测性能(C-index:0.72 vs 0.69/0.71),且在外部验证中表现稳健。该系统显著提高了风险评分的可用性(从手动记录的12-21%提升至100%),减少了人为错误,为血液学领域自动化风险分层提供了重要范式,有望促进临床决策的及时性与公平性。

  
引言
骨髓纤维化是一种侵袭性的BCR::ABL1阴性骨髓增殖性肿瘤,其10年生存率范围广泛,从低于5%到超过90%,具体取决于疾病特异性因素。为了估计预后、指导治疗策略并证明异基因造血干细胞移植的合理性,已经开发了多种风险评估工具。其中,动态预后评分系统(DIPSS)及其改进版本DIPSS Plus,是骨髓纤维化患者中最常用且全球可及的预后评分之一。这两个评分都将患者分为四个风险类别:低危、中危-1、中危-2和高危。DIPSS基于五个临床变量(年龄 >65岁,血红蛋白 <10 g/dl,白细胞计数 >25 × 109/l,外周血原始细胞 ≥1%,以及存在体质症状),而DIPSS Plus则包含了三个额外变量(不良核型,血小板计数 <100 × 109/l,以及输血依赖)。目前,风险评分仍然是一项手动任务,计算错误或评分遗漏可能会延迟治疗开始。自动化决策系统可以减少人为错误,确保持续、透明的风险评估,同时简化手动工作流程。然而,基于电子健康记录(EHR)的自动化评分在血液学领域尚未得到充分研究,且EHR系统的局限性也阻碍了其更广泛的应用。为解决这些空白,本研究探讨了DIPSS和DIPSS Plus的EHR自动化。
材料与方法
数据湖
这项回顾性观察性研究从赫尔辛基大学医院(HUS)的数据湖中收集了真实世界数据(RWD)。该数据湖是一个公有且受治理的患者登记库,主要用于研究和行政管理目的。它包含来自HUS使用的患者信息系统和质量登记库的临床数据。数据经过假名化处理,登记库作为独立的数据源保存。获得HUS或芬兰社会与健康数据许可机构Findata的适当研究和数据许可后,即可访问数据湖。本研究方案获得了HUS机构研究伦理委员会的批准,允许在豁免患者同意的情况下使用二次数据。
临床数据
为研究自动化是否能提高DIPSS和DIPSS Plus的预后准确性,研究纳入了2007年1月至2024年6月期间在HUS诊断为原发性或继发性骨髓纤维化的患者。数据收集时间为2024年5月至2024年7月。通过结合病历审查和文本挖掘确认疾病病因。研究未预期存在性别相关或社会经济选择偏倚,因为在芬兰,骨髓纤维化患者仅在公共医疗系统内接受治疗。
为比较自动化和医师定义的评分,研究采用了两种不同的方法来定义DIPSS和DIPSS Plus。模型1代表诊断时的医师定义评分,根据数据可用性,通过手动病历审查或手动计算获得。模型2则利用集成到数据湖中的定制化流程,检索结构化的临床变量(如年龄、实验室值、输血次数)。此外,模型2通过基于正则表达式的文本挖掘提取描述性数据(即体质症状和核型)。结构化的临床变量和患者病历以表格形式(CSV格式文件)存储。
对于体质症状,研究纳入了夜间盗汗(例如“夜间出?汗”)、体质症状或B症状、体重减轻、发热或体温的截断术语,并排除了带有否定(如“无”、“不”)、不确定性(如“可能”、“如果”、“估计”)或混杂因素(如“肝硬化”、“感染”、“鲁索替尼”或“炎症”)的句子。对于核型,研究对用于G显带和荧光原位杂交(FISH)研究的标准细胞遗传学注释应用了文本挖掘。
为了解决骨髓纤维化的隐匿性并模拟临床医生的决策过程,模型2捕获趋势而非单一数值,其设计覆盖诊断日期的±100天,并计算实验室变量的最差情况分位数。
统计分析
研究使用卡方检验和混淆矩阵比较模型。采用Kaplan-Meier法和Cox回归(对数秩检验)进行生存分析。使用一致性指数(C-index)和时间依赖性受试者工作特征曲线下面积(time-dependent AUROC)评估预测性能。使用来自芬兰西南部福利服务区(VARHA)的外部患者队列验证模型2。最后,基于病因和疾病相关治疗对亚组进行了事后分析。
研究根据《赫尔辛基宣言》以及欧洲和国家的数据隐私法规进行。所有数据均在安全的操作环境中以假名化格式进行分析,使用的软件为R版本4.4.2。
结果
自动化骨髓纤维化患者评分可靠且准确
研究共纳入251名患者用于DIPSS建模,171名患者用于DIPSS Plus建模。80名患者因核型数据缺失被排除。在患者病历中,DIPSS的报告率为12%(31/251),DIPSS Plus的报告率为21%(36/171),其余患者的评分则基于其风险评分变量进行手动计算。模型2的评分对所有患者均自动计算。
DIPSS分析患者的中位年龄为70岁,DIPSS Plus分析患者的中位年龄为68岁。男性患者比例分别为57%和58%。中位随访时间分别为3.2年(范围0.05-16.4年)和3.5年(范围0.05-16.4年)。被排除在DIPSS Plus分析之外的患者年龄较大(中位年龄74岁),但性别分布相似(男性55%)。
两种模型之间的风险分层存在差异(DIPSS的P = 0.0018,DIPSS Plus的P = 0.010,卡方检验),模型2将更多患者分类到更高风险类别。在变量水平上,模型2对外周血血红蛋白(P = 0.023)、原始细胞比例(P < 0.001)和体质症状(P < 0.001)给出了更高的估计值。
然而,两种模型均能根据预后对患者进行分层(P < 0.0001)。模型1的C指数为0.69/0.71(DIPSS/DIPSS Plus),模型2的C指数为0.72/0.72。模型1的时间依赖性AUROC值范围为0.71-0.79/0.74-0.82,模型2的为0.75-0.82/0.74-0.84。基于DIPSS,模型2在第3至第5年表现出优势;基于DIPSS Plus,模型2在第5年表现出优势。
自动化DIPSS和DIPSS Plus评分的验证
在验证队列中应用相同的纳入和排除标准,最终得到120名患者用于DIPSS建模,81名患者用于DIPSS Plus建模。验证队列在以下方面与发现队列相似:中位年龄(DIPSS分析为70岁,DIPSS Plus分析为67岁)、性别(男性分别为55%和58%)、中位随访时间(3.5年,范围0.04-17.4年;4.0年,范围0.04-17.4年)以及被排除患者情况(核型缺失n=39,中位年龄78岁,男性49%)。DIPSS的报告率为8%(9/120),DIPSS Plus的报告率为15%(12/81)。
与发现队列相反,验证队列中模型之间的风险分层没有差异(DIPSS的P = 0.42,DIPSS Plus的P = 0.37)。模型2并未对外周血血红蛋白(P = 0.078)、原始细胞比例(P = 0.39)或体质症状(P = 0.17)给出更高的估计值。两种模型均能根据预后对患者进行分层(P < 0.001)。模型1的C指数为0.66/0.67(DIPSS/DIPSS Plus),模型2的为0.68/0.70。模型1的时间依赖性AUROC值范围为0.65-0.74/0.65-0.79,模型2的为0.67-0.76/0.67-0.87,无显著差异。
自动分层在原发性和继发性骨髓纤维化中的评估
虽然DIPSS和DIPSS Plus是为原发性骨髓纤维化(PMF)开发的,但这两个评分也已被证明适用于继发性骨髓纤维化(SMF)。研究比较了模型1和模型2在两种病因亚组中的性能。两种模型在两种亚组中均能根据预后对患者进行分层(P < 0.001)。在PMF组中,模型1的C指数为0.68/0.67,模型2的为0.69/0.70。在SMF组中,模型1的C指数为0.68/0.70,模型2的为0.73/0.73。研究结果表明,DIPSS和DIPSS Plus在原发性和继发性骨髓纤维化中具有相似的可靠性。
JAK抑制剂和促红细胞生成素刺激剂对自动分层的影响
由于模型2覆盖了诊断日期±100天的时期,患者接受的治疗可能影响其最差分位数值。研究通过将模型2的数据捕获期终止于Janus激酶(JAK)抑制剂或促红细胞生成素刺激剂治疗开始时,为接受这些治疗的患者重新计算了评分。这导致12/73(DIPSS)和6/46(DIPSS Plus)的患者被重新分类。然而,风险分层并无显著差异(Fisher精确检验P = 0.71和P = 0.92),表明治疗影响可能很小。
讨论
本研究探讨了集成于EHR的自动化DIPSS和DIPSS Plus评分的可行性和性能。据我们所知,这是血液学领域首个自动化预后风险评分系统。
研究在两个真实世界患者队列的内部和之间比较了自动化评分与手动评分。在发现队列中,模型2倾向于对血红蛋白、原始细胞计数和体质症状给出更高的估计,从而导致更高的风险类别和更好的总生存期预测。这可能表明基于规则的决策系统能够做出更准确、客观的预测,考虑到医生解读实验室结果带来的变异性以及这些值的自然波动。然而,在验证队列中,差异仍然细微,可能由于样本量较小,因此未能验证其显著优越性。相反,两种模型都表现出中等程度的判别能力,发现队列中的AUROC值大于0.70,验证队列中大于等于0.65。
优化风险评分固然有价值,但其效用取决于在现实环境中的应用。研究揭示了手动风险评分计算的一个重要缺陷,这与之前的一项RWD研究相似。在发现队列中,医师报告DIPSS和DIPSS Plus的比例分别为12%和21%,在验证队列中分别为8%和15%,而自动化模型则为所有患者提供了评分。这凸显了机器辅助评分的重要性和必要性。当模型在患者属于高风险还是低风险类别(即是否应评估异基因造血干细胞移植)上存在分歧时,就会发生临床意义上的差异。在本研究中,这种分歧发生在14%/19%(DIPSS/DIPSS Plus)的患者身上。在大多数情况下,自动化评分分配了更高的风险类别,建议进行更早的风险评估。未来的研究将表明,自动获得的、提高的评分可用性是否会导致临床实践和患者结局的实际改变。
本研究还展示了自动化模型如何利用EHR进行操作。尽管评分相对简单,EHR也在进步,并且它们对临床实践具有潜力,但目前仅有少数自动化风险评分被提出并使用RWD进行验证。我们相信类似的自动化方法可以复制用于血液学领域的其他风险评分,例如用于骨髓增生异常肿瘤患者的修订版国际预后评分系统(IPSS-R)和用于慢性髓系白血病患者的欧洲治疗与结局研究(EUTOS)长期生存评分。
本研究存在一些局限性。首先,80名患者缺少核型数据,可能导致DIPSS Plus分析中存在选择偏倚。但这并未改变结果,原因可能在于年龄较大、不适合移植的患者进行核型分析的频率较低。出于类似原因,研究未使用突变增强国际预后评分系统(MIPSS)或基因启发预后评分系统(GIPSS)。其次,无法完全考虑接受治疗的影响,但正如研究结果所示,这些治疗对模型2中使用的最差分位数实验室值影响可能很小。最后,该决策系统是专门为芬兰两个医院区的EHR设计的,覆盖总人口超过200万。鉴于本研究的概念验证性质以及在跨医院区表现一致,我们相信类似的基于规则的逻辑可以在其他国家的其他EHR中复制和采用。
结论
本研究表明,基于EHR的自动化数据挖掘可以提供准确的预测。我们提出了一种新颖的、自动化的、集成于EHR的决策系统,用于计算DIPSS和DIPSS Plus评分,提供了一个简单的计算工具,提高了真实世界中风险评分的可用性,并可能促进公平的风险评估和及时的治疗计划。
致谢
作者感谢Hematoscope Lab成员的讨论和评论。
资助
本研究得到了赫尔辛基大学医院、葛兰素史克(GSK)、国家级医学研究基金、Juselius基金会、血液学研究基金会(Veritautien tutkimussaatio)、芬兰-瑞典医学会(Finska Lakaresallskapet)、芬兰医学基金会、芬兰癌症基金会、芬兰研究委员会、Instrumentarium科学基金会和赫尔辛基大学的研究资助。资助方未参与研究设计、数据收集、分析或解释、报告撰写或决定提交文章发表。
利益冲突披露
OB声明从诺华、赛诺菲、阿斯利康、安进、葛兰素史克(GSK)和安斯泰来制药获得咨询费;并从辉瑞和吉利德科学获得研究资助。KP报告了研究资助(来自艾伯维、百时美施贵宝/新基、因赛特、诺华、辉瑞和罗氏)和股票所有权(Hematoscope Ltd)。所有其他作者声明无利益冲突。
数据共享
数据可通过赫尔辛基大学医院或芬兰社会与健康数据许可机构Findata获得适当的研究和数据许可后访问。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号