基于临床文本的机器学习模型预测急性缺血性卒中半暗带-核心不匹配的临床价值研究

【字体: 时间:2025年06月07日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对急性大血管闭塞性缺血性卒中(AIS-LVO)患者,通过机器学习(ML)分析电子健康记录(EHR)中的非影像学数据,成功开发出可预测CT灌注(CTP)半暗带-核心比(P:C≥1.8)的XGBoost模型(AUROC=0.80)。该研究创新性地采用BioWordVec词嵌入与TF-IDF加权技术处理临床文本,为资源受限地区提供了一种无需依赖CTP的快速决策工具,对优化血管内取栓(EVT)治疗时间窗具有重要临床意义。

  

在急性缺血性卒中治疗领域,时间就是大脑。当大血管闭塞(AIS-LVO)发生时,血管内取栓术(EVT)的疗效高度依赖于能否准确识别可挽救的缺血半暗带(Penumbra)与不可逆梗死核心(Core)。目前指南推荐使用CT灌注成像(CTP)计算的半暗带-核心体积比(P:C ratio≥1.8)作为EVT决策依据,但CTP存在诸多局限:平均延长20分钟救治时间、易受心衰患者运动伪影影响、在低收入地区普及率不足,且不同软件生成的灌注图存在一致性争议。这些瓶颈促使研究者探索替代方案。

Mount Sinai医疗系统的Shaun Kohli等学者在《npj Digital Medicine》发表了一项创新研究,首次证明机器学习可通过非影像学数据预测P:C比值。研究团队回顾性分析了120例AIS-LVO患者数据,这些患者在初始神经影像学检查后30分钟内接受了CTP。通过提取EHR中的结构化数据(如年龄、NIH卒中量表评分)和非结构化临床文本,创新性地构建了文本处理流程:先按500/1000/5000字符阈值构建患者级语料库,再应用BioWordVec生物医学词嵌入技术将文本转化为200维向量,最后通过TF-IDF加权生成文档嵌入特征。

关键技术包括:1) 从688例筛查患者中严格筛选120例符合标准的AIS-LVO病例;2) 使用10种ML算法比较性能,最优模型采用XGBoost架构;3) 通过1000次70/30分层自助采样验证模型稳定性;4) 分析不同专业背景(急诊医师/护士等)的临床笔记对模型影响。

研究结果部分显示:

  1. 研究队列与纳入笔记特征:最终队列中88.3%患者P:C≥1.8,中位CTP检查时间为最后正常时间后13.7小时。500字符阈值下的笔记包含最多预测信号,其记录时间中位数为CTP前29.8分钟。

  2. 最优模型性能与分类指标:XGBoost模型在500字符阈值下表现最佳(AUROC=0.80,95%CI 0.57-0.92),敏感性和特异性分别为0.80和0.66。值得注意的是,纯文本模型(AUROC=0.79)显著优于纯结构化数据模型(AUROC=0.41),证实临床文本蕴含关键预测信息。

  1. 笔记作者类型对模型影响:55.3%纳入笔记来自护士,18.6%来自住院医师。Kruskal-Wallis检验显示模型性能不受作者专业背景影响(p=0.20),但误分类样本常包含过多流程性描述。

讨论部分指出,该研究首次验证了非影像学数据预测P:C比值的可行性,其创新点在于:1) 通过TF-IDF加权词嵌入解决临床文本异质性难题;2) 预测时间较CTP提前30分钟,为临床决策争取宝贵时间;3) 模型性能不受医疗记录者专业差异影响,体现鲁棒性。虽然存在单中心回顾性研究的局限性,但该方法为资源匮乏地区提供了EVT筛选新思路,未来可与影像学模型形成互补。研究者已公开代码(GitHub),建议后续开展多中心验证并探索连续型P:C值预测。

这项研究的临床转化价值显著:在CTP不可及的场景下,急诊科通过简单录入患者症状描述即可快速评估EVT适应症,尤其对后循环卒中等CTP判读困难的病例更具优势。随着医疗AI的发展,这种融合自然语言处理与机器学习的创新方法,或将成为卒中精准医疗的新突破口。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号