专家引导式自我改进框架:CriteriaLLM在临床研究人群生成中的创新应用
《International Journal of Medical Microbiology》:Learning from experts: A self-improving LLM framework for study population generation in clinical research
【字体:
大
中
小
】
时间:2025年11月03日
来源:International Journal of Medical Microbiology 3.6
编辑推荐:
本文提出CriteriaLLM框架,通过整合临床专家反馈与事后回顾(AAR)方法,构建动态更新的专家知识库,采用双检索算法(疾病领域相关性与词汇相似度)指导LLM生成符合临床研究目标的研究人群。该框架在MIMIC-III数据库的254项研究中验证,显著提升GPT-4o等模型的生成质量(Macro F1达0.9180),实现了无需微调、持续自我优化的临床研究人群生成系统。
专家引导的自我改进:临床研究中研究人群生成的LLM框架
随着电子健康记录(EHR)的广泛采用,真实世界数据(RWD)快速积累,成为生成真实世界证据(RWE)的重要基础。与随机对照试验(RCT)相比,RWD在资源需求、时间成本和罕见病研究方面具有显著优势。传统RWD研究流程中,研究人群的定义(通过纳入和排除标准)作为连接研究目标与下游分析的关键环节,仍高度依赖临床专家共识,效率低下。尽管大型语言模型(LLM)已应用于生物医学研究的多个阶段,但其在研究人群生成中的可靠性、可解释性及对临床动态变化的适应性仍存挑战。
本研究提出CriteriaLLM框架,通过以下三阶段实现LLM的自我改进:
- 1.专家知识库初始化:记录LLM输出的研究人群及临床专家的修改反馈,构建结构化知识库;
- 2.知识引导生成:结合疾病领域相关性与词汇相似度的双检索算法,从知识库中提取历史案例指导LLM生成新研究人群;
- 3.持续临床验证:通过迭代整合专家反馈,形成闭环优化系统,提升模型对临床实践变化的适应能力。
基于MIMIC-III数据库的254项临床研究评估显示,CriteriaLLM框架在GPT-4o、Deepseek-R1和LLaMA等模型上均显著提升研究人群生成质量,其中GPT-4o的Macro F1分数最高达0.9180。框架在不同参数规模和部署方式的模型间均保持良好泛化能力。
CriteriaLLM通过动态整合专家反馈,实现了LLM在临床研究人群生成中的自我优化,为生成式AI在临床适宜性、可靠性与可解释性需求之间搭建了桥梁。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号