专家引导式自我改进框架:CriteriaLLM在临床研究人群生成中的创新应用

《International Journal of Medical Microbiology》:Learning from experts: A self-improving LLM framework for study population generation in clinical research

【字体: 时间:2025年11月03日 来源:International Journal of Medical Microbiology 3.6

编辑推荐:

  本文提出CriteriaLLM框架,通过整合临床专家反馈与事后回顾(AAR)方法,构建动态更新的专家知识库,采用双检索算法(疾病领域相关性与词汇相似度)指导LLM生成符合临床研究目标的研究人群。该框架在MIMIC-III数据库的254项研究中验证,显著提升GPT-4o等模型的生成质量(Macro F1达0.9180),实现了无需微调、持续自我优化的临床研究人群生成系统。

  
亮点
专家引导的自我改进:临床研究中研究人群生成的LLM框架
引言
随着电子健康记录(EHR)的广泛采用,真实世界数据(RWD)快速积累,成为生成真实世界证据(RWE)的重要基础。与随机对照试验(RCT)相比,RWD在资源需求、时间成本和罕见病研究方面具有显著优势。传统RWD研究流程中,研究人群的定义(通过纳入和排除标准)作为连接研究目标与下游分析的关键环节,仍高度依赖临床专家共识,效率低下。尽管大型语言模型(LLM)已应用于生物医学研究的多个阶段,但其在研究人群生成中的可靠性、可解释性及对临床动态变化的适应性仍存挑战。
方法
本研究提出CriteriaLLM框架,通过以下三阶段实现LLM的自我改进:
  1. 1.
    专家知识库初始化:记录LLM输出的研究人群及临床专家的修改反馈,构建结构化知识库;
  2. 2.
    知识引导生成:结合疾病领域相关性与词汇相似度的双检索算法,从知识库中提取历史案例指导LLM生成新研究人群;
  3. 3.
    持续临床验证:通过迭代整合专家反馈,形成闭环优化系统,提升模型对临床实践变化的适应能力。
结果
基于MIMIC-III数据库的254项临床研究评估显示,CriteriaLLM框架在GPT-4o、Deepseek-R1和LLaMA等模型上均显著提升研究人群生成质量,其中GPT-4o的Macro F1分数最高达0.9180。框架在不同参数规模和部署方式的模型间均保持良好泛化能力。
结论
CriteriaLLM通过动态整合专家反馈,实现了LLM在临床研究人群生成中的自我优化,为生成式AI在临床适宜性、可靠性与可解释性需求之间搭建了桥梁。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号