基于语言模型的电子病历系统抗癌治疗时间线自动提取算法开发与验证

【字体: 时间:2025年09月14日 来源:JMIR Bioinformatics and Biotechnology CS2.9

编辑推荐:

  本研究针对电子病历(EMR)中系统性抗癌治疗(SACT)时间线提取难题,开发了基于EntityBERT微调与大型语言模型(LLM)提示的自动提取算法。研究在结直肠癌、卵巢癌、乳腺癌和黑色素瘤数据集上验证显示,微调模型在Subtask1中达到93% F1分数,显著优于LLM方法。该成果为临床决策支持和癌症研究提供了高效可靠的时序数据提取方案,发表于JMIR Bioinformatics and Biotechnology。

  

癌症治疗过程中,患者往往需要接受多种系统性抗癌治疗(Systemic Anticancer Therapy, SACT)药物的组合或序贯治疗。由于累积毒性和治疗协同效应的存在,SACT组分的给药顺序远比单纯记录是否使用过某种药物更为重要。然而,患者可能在不同医疗机构、系统和保险安排下接受长期治疗序列,这使得通过标准结构化数据资源准确统计整体治疗过程变得极具挑战性。临床叙事文本中通常包含丰富的SACT时序描述,这为自动化提取方法提供了重要机遇。

临床自然语言处理(Natural Language Processing, NLP)领域致力于开发计算方法来处理临床叙事文本。时序性一直是临床NLP的关键研究领域,具有广泛的应用前景,包括SACT的时序排序。以往的时序性提取研究主要集中于从电子病历(Electronic Medical Records, EMR)中提取实例级的成对时序关系(TLINKs),即事件(EVENT)提及与时间表达式(TIMEX3)提及之间或两个事件提及之间的关联。

2024年ChemoTimelines共享任务将SACT时间线构建制定为信息提取任务,提供了来自匹兹堡大学医学中心的57,520名乳腺癌和卵巢癌患者以及15,946名黑色素瘤患者的去标识自由文本文档。这些文档代表了各种类型的记录,如病理报告、临床记录、放射学报告、急诊科就诊、出院摘要等。149名患者的子集经过专家标注,包含EVENT提及、TIMEX3提及和实例级成对时序关系,遵循THYME2模式,以及患者级的SACT事件时间线。

本研究进一步探索了使用共享任务数据集和来自另一学术医疗中心的另一种常见癌症类型(如结直肠癌)数据集进行SACT时间线提取。研究人员探索了任务特定的微调方法和大型语言模型(Large Language Model, LLM)提示方法,以从临床叙事中提取SACT时间线。他们在共享任务的乳腺癌、卵巢癌和黑色素瘤数据集上的结果与共享任务参与者的结果进行了比较,在Subtask1中取得了新的最先进水平(State-of-the-Art, SOTA),并为结直肠癌数据集建立了SOTA基准。

本研究的主要技术方法包括:使用来自两个机构的两个数据集——包括THYME数据集中199名患者的全部EMR的结直肠癌(Colorectal Cancer, CRC)数据集和2024年ChemoTimelines共享任务数据集(包括149名卵巢癌、乳腺癌和黑色素瘤患者);探索微调较小的语言模型(训练以关注事件和时间表达式)和大型语言模型(LLM)的少样本提示;使用2024年ChemoTimelines共享任务配置进行评估——Subtask1涉及从手动标注的SACT事件和时间表达式提及构建SACT时间线(除了患者记录外,还作为输入提供),Subtask2要求直接从患者记录中提取SACT时间线。

方法

研究采用了两种方法进行SACT时间线提取:微调较小的语言模型和提示大型语言模型。对于第一种方法,研究人员将SACT时间线提取任务转化为成对时序关系提取任务,随后进行时序关系总结步骤。给定输入文本,他们设计了一个包含以下步骤的流程:提取SACT事件提及、提取TIMEX3提及、分类成对事件-TIMEX3时序关系、规范化TIMEX3提及,以及总结和精炼患者级时间线。

SACT事件提及通过序列标注标记器提取,该标记器通过在金标准标注数据的训练分割上微调预训练语言模型来训练。TIMEX3提及通过Apache临床文本分析和知识提取系统(cTAKES)的时间模块提取。给定一个事件-TIMEX3对,任务是根据预定义的TLINK标签集确定它们之间的时序关系。研究人员微调了EntityBERT用于这一步骤,创建了一个专门训练以关注事件和TIMEX3提及的语言模型。

对于第二种方法,研究人员通过LLM提示开发了一个端到端的时间线提取流程。这个流程包括两个步骤:第一步侧重于从临床文本中提取<事件,tlink,timex3>三元组,第二步设计用于TIMEX3规范化。他们采用了上下文学习的方法,即在提示中添加带有答案的金标准示例。

结果

研究结果显示,在开发集和测试集上,任务特定的微调EntityBERT模型在Subtask1中达到了93%的F1分数,优于2024年ChemoTimelines共享任务Subtask1的最佳结果(90%),在Subtask2中排名第二。LLM(LLaMA2、LLaMA3.1和Mixtral)在THYME和共享任务数据集上的表现均落后于任务特定的微调模型。在共享任务数据集上,最佳LLM表现为77%的宏观F1分数,比任务特定的微调系统低16个百分点(Subtask1)。

在Subtask1中,使用金标准SACT事件和TIMEX3提及作为输入时,微调的EntityBERT和EntityBERT(3 Cr)在很大程度上优于LLaMA2、LLaMA3.1和Mixtral LLM。在LLM中,LLaMA的得分高于Mixtral。在Subtask2中,显示了端到端评估结果。研究人员注意到,使用金标准提及输入的表现在和使用自动提取提及的表现之间存在巨大差距,这表明提及提取阶段的错误传播到关系提取阶段,并显著影响系统的整体准确性。

讨论

本研究的意义在于自动且忠实地从患者EMR中提取治疗时间线,这将影响患者-医生互动的各个方面、决策过程以及癌症研究的进展。在护理点,临床医生通过患者的治疗时间线能够快速了解该患者复杂的疾病和治疗过程,特别是在肿瘤学中,患者带着数百份记录来到专业中心。对于研究而言,自动生成时间线为创建大规模队列以回答重要研究问题打开了大门。

尽管围绕LLM和提示工程有很多兴奋点,但在工程决策中需要考虑一个主要约束——输入文本的长度。这对于需要考虑整个患者EMR叙述的任务(如治疗时间线提取)尤其明显。当考虑LLM的输入提示时,研究人员首先考虑一次向LLM发送一份记录,或者将包含SACT事件提及的所有句子连接起来并发送给LLM。然而,实验表明,从长序列(即使只是一份患者记录)中提取时间线对于他们评估的LLM来说过于挑战性。

错误分析指出,错误的主要来源是TLINK分类,即正确分配事件和TIMEX之间的时序关系。本研究实验的技术是基于LM的——微调较小的LM和LLM提示。改进TLINK提取的研究路径在于将各种技术的输出组合成一个具有投票机制的集成系统,例如多数投票或分类层。该集成可能包括基于LLM的方法和非基于LLM的方法(如经典支持向量机)的输出。

结论

本研究通过SACT时间线提取任务探索了患者级时间线提取的方法。研究人员在2024年ChemoTimelines共享任务以及THYME数据集上进行了实验,因此数据代表了两个机构的四种癌症类型。他们微调了一个专门训练以关注事件和TIMEX3提及的LM,在Subtask1中取得了比所有共享任务参与者更高的分数。他们还通过提示探索了基于LLM的系统。在这两个子任务中,基于LLM的系统都优于采用LLM提示方法的共享任务参与者系统。研究结果证明了基于丰富的疾病特定数据集的任务特定微调优于当前通用LLM的提示。研究人员相信,他们在此任务上的结果和分析为使用NLP方法提取EMR中的治疗时间线增添了知识。代码将在接受后公开发布。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号