基于大语言模型的儿科罕见病临床报告时序关系提取研究

《JAMIA Open》:Using large language models for temporal relation extraction from pediatric clinical reports

【字体: 时间:2025年11月24日 来源:JAMIA Open 3.4

编辑推荐:

  本研究针对罕见疾病诊疗中患者时间线构建的挑战,开发了一种基于大语言模型(LLM)的时序关系提取框架。研究团队采用少量样本提示方法,在本地部署的Mistral 22B、Gemma 7B和Llama3 8B模型上测试了二元分类与多分类策略。结果显示二元分类F1值最高达0.70,显著优于多分类方法,为严格数据治理要求的医疗机构提供了可行的时序信息提取方案。

  
在罕见疾病诊疗领域,医生们面临着一个特殊挑战:如何准确掌握症状出现的时间和进展轨迹。这种时序信息对精准诊断至关重要,但从海量医疗记录中人工提取既耗时又容易产生不一致。特别是在儿科罕见疾病领域,患者病程复杂多变,建立准确的时间线对疾病演进模式分析和早期诊断具有重要意义。
目前,虽然已有研究致力于从临床文本中识别时序关系,但这些工作大多关注事件与时间实体之间的关系检测,缺乏针对患者时间线构建的专门研究。更值得注意的是,现有公开的临床研究数据主要以英语为主,而法语医学报告在表达方式和格式上具有显著差异,这给基于大语言模型的技术开发带来了跨语言挑战。此外,不同医院和专科的临床报告格式各异,使得基于本地数据集的模型验证变得尤为重要。
为了解决这些问题,来自法国巴黎大学Imagine研究所的研究团队在《JAMIA Open》上发表了一项创新研究,探讨了使用大语言模型从法语儿科罕见疾病临床报告中提取时序关系的方法。该研究立足于内克尔儿童医院的实际临床需求,在严格遵守数据隐私保护的前提下,开发了一套能够自动构建患者时间线的技术方案。
研究人员采用了三种关键技术方法:首先使用25份法语儿科罕见疾病临床报告作为测试集,通过本地部署的LLM模型确保数据安全;其次设计了两类少量样本提示策略,比较了多分类和二元分类在不同关系类型上的表现;最后通过人工标注的金标准评估模型性能,重点分析了七种时序关系(BEGINS-AT、ENDS-AT等)的提取效果。
模型性能比较
研究结果显示,二元分类策略显著优于多分类方法。在测试的三种大语言模型中,Mistral 22B表现最为出色,整体F1得分达到0.55。具体而言,BEGINS-AT、ENDS-AT和BEFORE-OVERLAP等关系类型的识别效果较好(F1值在0.55-0.70之间),而OVERLAP、CONTAINS和SIMULTANEOUS等复杂关系的识别仍面临挑战(F1值仅0.03-0.40)。这种性能差异揭示了当前大语言模型在处理复杂时序语义时的局限性。
不同关系类型的表现
通过分析不同时序实体与表型之间的关系分布,研究人员发现Date of Visit(DOV)与表型之间的BEFORE-OVERLAP关系出现频率最高(181次),而SIMULTANEOUS关系最为罕见(仅14次)。这种数据分布的不均衡性部分解释了模型在某些关系类型上表现差异的原因。同时,法语临床文本中时间表达的特殊性(如"a l'age de"等短语)也给模型理解带来了额外挑战。
认知负载理论的应用
本研究的一个重要发现是任务表述对模型性能的关键影响。当使用多分类提示(Prompt 1)时,模型需要同时区分7种关系类型,导致认知负载过重,性能显著下降。而采用二元分类提示(Prompt 2)后,模型只需判断特定关系存在与否,大大简化了决策过程,使F1值平均提升了46%。这一现象与人类认知的负载理论高度吻合,说明简化任务表述能有效提升大语言模型在专业领域的表现。
讨论与展望
本研究通过实证分析证明,在严格的数据治理要求下,基于少量样本提示的大语言模型方法能够有效提取法语儿科临床报告中的时序关系。然而,研究也揭示了当前模型在处理复杂时序关系时的局限性,特别是对于那些需要深入理解临床语境的关系类型。未来研究可考虑增加训练样本的多样性,优化提示工程设计,以及结合领域特定的知识图谱来进一步提升性能。
这项工作的重要意义在于为医疗机提供了一条切实可行的技术路径,使其能够在不出敏感数据的前提下,利用先进的大语言模型技术提升临床决策支持能力。特别是在罕见疾病研究领域,这种方法有望加速患者时间线的自动化构建,为疾病演进模式分析和个性化诊疗提供重要支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号