大型语言模型在简化放射学报告中的价值评估:一项关于患者、公众和临床医生评价的系统综述与Meta分析

《The Lancet Digital Health》:Large language models for simplifying radiology reports: a systematic review and meta-analysis of patient, public, and clinician evaluations

【字体: 时间:2026年02月18日 来源:The Lancet Digital Health 24.1

编辑推荐:

  为解决放射学报告技术术语过多、患者难以理解的问题,研究人员系统评估了大型语言模型(LLM)在简化报告、提升患者理解方面的能力。Meta分析结果显示,LLM简化的报告显著提高了患者理解的感知评分,并被临床医生评估为高度准确和完整,可读性亦得到改善。这表明LLMs在促进以患者为中心的放射学沟通方面展现出潜力。

  
想象一下,你做完一次CT或MRI检查,焦急地等待结果,终于拿到了一份正式的放射学报告,却发现里面满是晦涩难懂的医学术语和解剖学描述,仿佛在读一本专业密码书。这正是目前许多患者面临的困境。随着《21世纪治愈法案》等政策推动医疗记录的透明化,患者能够直接获取自己的医学影像报告。然而,这些报告本质上是由放射科医生为临床医生撰写的,其高专业壁垒让普通患者望而却步。技术术语可能导致患者困惑、焦虑,甚至因误解报告内容而进行不必要的进一步检查或入院治疗,这对患者和医疗系统都构成负担。同时,放射科医生也可能因担忧报告被患者直接查阅而影响报告的全面性和准确性。因此,如何在确保临床信息准确的前提下,让患者也能理解报告内容,成为了提升“以患者为中心”医疗服务的迫切需求。
正是在此背景下,由Samer Alabed等人领衔的研究团队在《The Lancet Digital Health》上发表了一项开创性的系统综述与Meta分析,旨在评估大型语言模型(LLMs)这种强大的文本生成式人工智能(AI)工具,在简化放射学报告、改善患者理解方面的实际效果。研究者们想知道,这种前沿技术能否成为打破医患沟通专业壁垒的桥梁。
为了解答这些问题,研究人员采用了严谨的系统综述与Meta分析方法。他们系统检索了多个主流医学数据库和预印本平台截至2025年11月11日的文献,聚焦于那些应用LLMs简化任何影像学检查报告,并让患者、公众或医疗专业人员对简化报告进行评估的研究。研究过程遵循PRISMA指南,并由至少两名研究者独立完成文献筛选、数据提取和质量评估。他们主要关注患者/公众对理解度的评价(李克特量表评分)、临床医生对报告质量的评价(如准确性、完整性),以及客观的可读性指标(如Flesch–Kincaid Grade Level (FKGL)、Automated Readability Index (ARI)等)。
结果
纳入研究与样本特征
研究共识别出2385条记录,最终纳入38项符合条件的研究,这些研究生成了12,922份简化报告,并由508名评估者(387名非专业人士和121名临床医生)进行评估。绝大多数研究(92%)使用了OpenAI的GPT模型,76%的简化报告为英文。
患者与公众评估结果
感知理解度:LLM重写的报告在患者或公众评估者眼中的可理解性显著高于原始放射科医生报告。原始报告的平均李克特评分为2.16,而简化报告为4.04,平均差异达2.00,相当于感知理解度提升了87%。
其他指标:患者对LLM简化报告的满意度评分为3.81。关于报告是否表现出同理心(Empathy)的评分为3.61。一项研究显示,患者对简化报告的信任度评分为4.09,略低于对放射科医生报告的4.48。
临床医生评估结果
临床医生(包括放射科医生、医师等)对LLM简化报告的质量给予了高度评价。报告准确性的合并平均评分为4.45,完整性为4.53,简洁性为4.32。然而,对于报告是否适合直接向患者发布(可发布性)以及是否无潜在危害的评分相对较低,分别为3.93和3.79。
错误率:LLM重写报告的总体错误率为7.2%,但具有临床意义的错误率仅为0.9%。
可读性改善
LLM简化报告在各项可读性指标上均有显著改善。例如,对于CT报告,简化后的FKGL平均分降低了6.20,相当于从大学阅读水平降至11-13岁的学校阅读水平;Flesch Reading Ease Score (FRES)提高了163%。X射线和MRI报告的可读性提升幅度类似。
结论与讨论
本项系统综述与Meta分析首次综合评估了患者、公众和临床医生对LLM简化放射学报告的评价。核心结论是,LLM能够在不牺牲临床准确性的前提下,显著提高放射学报告的患者感知理解度和可读性,临床医生也认为这些报告大体上是准确和完整的。
研究的重要意义在于,为利用生成式AI推动“以患者为中心”的医疗沟通提供了有力的证据支持。它表明,在人工监管下,LLM有潜力成为一种实用工具,帮助解决因报告难以理解而导致的患者焦虑、医疗资源浪费和不平等问题,使医学影像服务更好地服务于其最终使用者——患者。
然而,研究也揭示了需要谨慎对待的挑战。首先,尽管临床意义错误率很低,但错误仍然存在,因此“人在回路”(Human-in-the-loop)的审核机制至关重要。其次,报告的即时发布可能引发患者焦虑,而延迟发布又可能影响患者参与度,这需要制定审慎的发布策略。再次,提高可读性往往以报告篇幅增加为代价,可能带来信息过载。此外,患者对简化报告的信任度略低于对医生原报告,提示需要关注透明度和个性化问题。当前证据基础还存在局限性,如研究规模较小、患者样本偏向年轻和高教育水平群体、评估主要依赖主观感知而非客观理解测试等。
未来,研究应优先与患者和临床医生共同设计报告格式,建立标准的评估指标和提示词策略,开展前瞻性的实施研究以评估其对临床工作流程和患者结局的真实影响,并探索结合视觉辅助等多媒体形式,确保报告不仅更易读,而且真正对患者有用。总之,通过采取审慎、基于证据的方法,LLM重写的报告有望从一项技术新奇事物,发展成为患者沟通的基石。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号