专家引导式自我改进框架：CriteriaLLM在临床研究人群生成中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Medical Microbiology》：Learning from experts: A self-improving LLM framework for study population generation in clinical research

【字体：大中小】 时间：2025年11月03日 来源：International Journal of Medical Microbiology 3.6

编辑推荐：

　　本文提出CriteriaLLM框架，通过整合临床专家反馈与事后回顾（AAR）方法，构建动态更新的专家知识库，采用双检索算法（疾病领域相关性与词汇相似度）指导LLM生成符合临床研究目标的研究人群。该框架在MIMIC-III数据库的254项研究中验证，显著提升GPT-4o等模型的生成质量（Macro F1达0.9180），实现了无需微调、持续自我优化的临床研究人群生成系统。

亮点

专家引导的自我改进：临床研究中研究人群生成的LLM框架

引言

随着电子健康记录（EHR）的广泛采用，真实世界数据（RWD）快速积累，成为生成真实世界证据（RWE）的重要基础。与随机对照试验（RCT）相比，RWD在资源需求、时间成本和罕见病研究方面具有显著优势。传统RWD研究流程中，研究人群的定义（通过纳入和排除标准）作为连接研究目标与下游分析的关键环节，仍高度依赖临床专家共识，效率低下。尽管大型语言模型（LLM）已应用于生物医学研究的多个阶段，但其在研究人群生成中的可靠性、可解释性及对临床动态变化的适应性仍存挑战。

方法

本研究提出CriteriaLLM框架，通过以下三阶段实现LLM的自我改进：

1.
专家知识库初始化：记录LLM输出的研究人群及临床专家的修改反馈，构建结构化知识库；
2.
知识引导生成：结合疾病领域相关性与词汇相似度的双检索算法，从知识库中提取历史案例指导LLM生成新研究人群；
3.
持续临床验证：通过迭代整合专家反馈，形成闭环优化系统，提升模型对临床实践变化的适应能力。

结果

基于MIMIC-III数据库的254项临床研究评估显示，CriteriaLLM框架在GPT-4o、Deepseek-R1和LLaMA等模型上均显著提升研究人群生成质量，其中GPT-4o的Macro F1分数最高达0.9180。框架在不同参数规模和部署方式的模型间均保持良好泛化能力。

结论

CriteriaLLM通过动态整合专家反馈，实现了LLM在临床研究人群生成中的自我优化，为生成式AI在临床适宜性、可靠性与可解释性需求之间搭建了桥梁。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号