大语言模型助力观察性研究病例判定:标准化患者档案审查的创新突破

【字体: 时间:2025年01月23日 来源:npj Digital Medicine 12.4

编辑推荐:

  在医疗研究中,利用行政索赔和电子健康记录(EHRs)进行观察性研究面临数据局限,传统图表审查繁琐。研究人员借助知识增强电子档案审查(KEEPER)系统与大语言模型(LLMs)开展病例判定研究。结果显示 LLMs 表现良好,这为自动化表型评估带来希望。

  在当今医疗研究领域,数据的二次利用已经成为一种趋势。行政索赔和电子健康记录(EHRs)这些原本并非为研究目的而收集的数据,被广泛应用于观察性研究中。然而,这些数据存在着诸多局限性,由于其并非为特定研究问题量身定制,往往缺乏精准信息 。比如在探究某些疾病的发生发展机制时,从这些数据中难以直接获取关键变量,研究人员不得不从现有的诊断代码、实验室测试等标记中推断重要信息 。为了提取有价值的健康结果,研究人员通常会制定概念性病例定义,进而推导出操作性定义,也就是所谓的表型算法。但这些算法的准确性至关重要,它直接关系到研究结果的可靠性。传统的验证方法是进行繁琐的图表审查,需要耗费大量时间和人力,而且审查过程主观,不同数据集之间难以通用 。例如,美国食品药品监督管理局(FDA)虽然提倡全面审查所有潜在病例,但在实际操作中,往往只能审查一小部分样本,这使得研究人员只能计算阳性预测值(PPV),无法全面评估结果错误分类带来的偏差。在这种背景下,开展新的研究迫在眉睫,以解决现有数据利用和验证方法的难题。
来自美国的多个研究机构,包括 Observational Health Data Science and Informatics、Global Epidemiology Organization、哥伦比亚大学欧文医学中心等的研究人员,共同开展了一项具有创新性的研究。他们将之前开发的知识增强电子档案审查(KEEPER)系统与大语言模型(LLMs)相结合,用于观察性研究中的病例判定。研究结果表明,通过零样本提示和迭代提示优化,不同的大语言模型在病例判定任务上表现各异,敏感性在 78% - 98% 之间,特异性在 48% - 98% 之间。这一研究成果发表在《npj Digital Medicine》上,为医疗研究中的病例判定提供了新的思路和方法,有望推动医疗研究领域的发展。

在研究过程中,研究人员主要运用了以下关键技术方法:首先是 KEEPER 系统,它依据临床推理、标准化和降维的原则,从结构化数据中提取与表型相关的信息 。其次,使用了大语言模型,研究人员选择了 4 种本地托管的大语言模型,包括 GPT - 3.5 Turbo、GPT - 4、Llama - 2 和 Sheep - Duck - Llama - 2(SDL2) 。另外,采用了零样本提示和迭代提示优化的方法,通过不断调整提示内容来提高大语言模型的判定性能 。研究数据来源于哥伦比亚大学欧文医学中心(CUIMC)的 EHRs 和 Optum 的去识别化 Clinformatics? Data Mart 数据库。

研究结果


  1. 提示工程:研究人员利用专门的人工注释开发集来指导提示工程。最初使用基本系统提示,让大语言模型对患者是否患有目标疾病给出 “是” 或 “否” 的二元回答 。随后,逐步改进提示,引入要求大语言模型展示支持和反对疾病的证据、生成临床叙述、强调单一诊断不足以确诊、处理不确定性以及提供示例等内容 。最终确定的系统提示包含四个部分,在开发集上表现最佳的提示策略被选定为最优策略 。不同大语言模型在使用该策略时表现有所差异,例如 Llama - 2 性能较差,而 GPT - 4 和 SDL2 表现相对较好,但运行时间和成本各不相同 。
  2. 测试集性能:在三个测试集中,大语言模型与人类评审员的表现进行了对比。在测试集 1 中,大语言模型的敏感性和特异性与人类评审员相似;测试集 2 中,大语言模型敏感性更高,但特异性处于人类表现的较低范围;测试集 3 中,GPT - 4 达到近乎完美的特异性,但敏感性较低,SDL2 则敏感性较高但特异性较低 。总体而言,大语言模型的 AUC 值与人类评审员相似,但在敏感性 - 特异性权衡上存在差异 。此外,不同疾病在测试集 3 中的表现差异较大,如急性支气管炎和甲型病毒性肝炎的敏感性和特异性较低 。
  3. 高敏感性集性能:研究人员使用 GPT - 4 对 25,000 个潜在类风湿关节炎(RA)病例的高敏感性集进行注释,将这些注释记录作为银标准评估 OHDSI RA 表型算法,得出该算法的 PPV 为 56.5%(95% 置信区间:52.4 - 60.5%),敏感性为 93.0%(95% CI:89.9 - 95.5%) 。

研究结论与讨论


研究表明,零样本提示在使用 KEEPER 系统进行病例判定时表现出合理的性能,与人类评审员的判定结果具有可比性 。大语言模型的性能受提示选择和具体模型的显著影响,疾病的差异也会导致评审员(包括人类和大语言模型)性能的波动,这反映了疾病诊断本身存在的不确定性 。大语言模型可用于评估表型算法的准确性,帮助研究人员判断病例的真实性 。结合 KEEPER 系统和大语言模型能够快速判定大量病例,计算多种表型和数据源的 PPV 和敏感性 。尽管研究存在一些局限性,如样本量有限导致 PPV 和敏感性的置信区间较宽,且当前研究仅涉及 10 种疾病 。但相比传统手动图表审查,大语言模型成本低、效率高,随着技术的发展,新的大语言模型不断出现,未来有望进一步提高性能,在医疗研究领域发挥更大的作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号