大型语言模型在肺癌患者出院小结生成中的性能比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月22日 来源：Journal of Biomedical Informatics 4.0

编辑推荐：

　　针对临床出院小结撰写耗时且易出错的问题，研究人员系统评估了GPT-3.5、GPT-4、GPT-4o和LLaMA 3 8b等大型语言模型（LLMs）在肺癌患者出院小结生成中的表现。通过自动评估指标（BLEU/ROUGE）和人工评分发现，GPT-4o在完整性（4.55±0.69）和语义相似度上表现最优，GPT-4则在临床相关性（4.95±0.22）和事实准确性（4.40±0.50）领先。该研究为AI辅助临床文档自动化提供了实证依据。

在医疗信息化快速发展的今天，临床医生仍被繁重的文书工作所困扰。据统计，撰写一份出院小结平均需要8.1分钟口述和29.2分钟转录，最终形成长达3.6页的文档。这种低效流程在肺癌等复杂病例中尤为突出——作为全球癌症死亡首因，肺癌患者往往经历多轮治疗和跨机构转诊，其临床信息呈碎片化分布。传统模板化记录方式难以捕捉诊疗全貌，而人工总结又面临时间成本高、易遗漏关键细节的困境。

为解决这一痛点，来自中国的研究团队在《Journal of Biomedical Informatics》发表了一项开创性研究。他们系统评估了GPT-3.5、GPT-4、GPT-4o和LLaMA 3 8b等大型语言模型（Large Language Models, LLMs）在肺癌出院小结生成中的表现。研究采用1,099例患者临床数据，其中50例用于测试，102例用于模型微调。通过结合自动评估指标（BLEU、ROUGE系列）和临床专家人工评分（采用5分制评估相关性、事实准确性和完整性），首次揭示了不同LLMs在医疗文本生成中的差异化优势。

关键技术方法包括：基于光学字符识别（OCR）的医疗记录数字化处理、多模型对比实验设计（涵盖闭源GPT系列与开源LLaMA 3）、迭代式文本生成策略测试，以及创新的三维评估体系（自动指标+人工评分+语义相似度分析）。特别针对LLaMA 3 8b进行了可变长度临床笔记的稳定性测试。

主要研究结果

自动评估指标：GPT-4o和微调后的LLaMA 3在BLEU和ROUGE-L等词级指标上表现最佳，表明其文本表面特征最接近人工撰写标准。
人工评估维度：GPT-4在临床相关性（4.95±0.22）和事实准确性（4.40±0.50）上拔得头筹；而GPT-4o以4.55±0.69的分数领跑完整性评估。
语义理解深度：GPT-4o与LLaMA 3在语义相似度评分中并列第一，证明其最能把握临床叙述的深层含义。
稳定性测试：LLaMA 3 8b在不同长度输入下的表现波动较大，提示模型鲁棒性需进一步提升。

讨论与意义
该研究首次实证比较了主流LLMs在专科医疗文本生成中的性能边界。GPT-4系列展现出"双雄并立"格局——GPT-4长于精准捕捉医疗逻辑，而GPT-4o胜在全面覆盖诊疗要素。值得注意的是，经过领域适应的LLaMA 3已接近商用模型水平，为开源模型在医疗场景的应用铺平道路。

从临床实践角度看，AI辅助生成可将文档工时压缩至秒级，使医生专注诊疗决策；对医疗信息化而言，该研究建立了可复用的评估框架，其采用的"机器+人工"双轨验证模式尤其适合高风险的医疗AI产品验证。团队特别指出，当前模型仍存在对复杂治疗方案描述不够精确的问题，未来需结合知识图谱等符号推理技术加以完善。

这项研究不仅为医院文档自动化提供了技术选型指南，更开创了LLMs在专科医疗文本生成领域的标准化评估范式。随着模型迭代和医疗语料库的扩充，AI有望成为医生的"智能文书助手"，从根本上改变临床信息流转效率，最终惠及患者诊疗体验。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号