大语言模型助力超声报告 “纠错”:提升诊断精准度的新探索

【字体: 时间:2025年01月29日 来源:npj Digital Medicine 12.4

编辑推荐:

  在超声报告准确性关乎患者诊疗的当下,为解决报告错误问题,研究人员开展大语言模型(LLMs)检测中文超声报告错误的研究。结果显示 LLMs 有潜力提升报告准确性,在某些方面超越人类专家,为医疗质量控制提供新思路。

  在医疗领域,超声检查是一种常见且重要的诊断手段,准确的超声报告对于患者的有效管理和治疗决策至关重要。然而,现实中超声报告却常常受到各种错误的困扰。比如,在肝脏评估时,报告结论写着 “未检测到异常”,可另一部分却显示 “发现多个肝囊肿”;又或者在女性患者的报告中,结论是 “右乳结节”,但超声描述部分却是 “左乳结节” 。这些逻辑不一致、检查项目遗漏、拼写错误等问题,不仅会导致误解,降低诊断准确性,还可能引发重复检查、重新评估超声图像,甚至造成漏诊或错误治疗,严重威胁患者的安全。
与此同时,放射科医生短缺、工作负担过重以及高压的临床环境,使得报告错误的出现几乎难以避免。在西方国家,大多采用双重阅读系统,由资深医生审核报告以确保准确性,但这无疑增加了医生的工作量,降低了工作效率。而在像中国这样没有双重阅读系统的国家,报告的准确性完全依赖于进行超声检查的医生,这就使得报告质量参差不齐,误诊风险增大。因此,寻找一种既能保证超声报告准确性,又能合理控制医生工作量的有效方法,成为了临床亟待解决的关键问题。

为了解决上述难题,浙江省肿瘤医院、中国科学院杭州医学研究所等机构的研究人员开展了一项关于大语言模型(LLMs)在检测中文超声报告错误方面的研究。该研究成果发表在《npj Digital Medicine》上,为数字医疗质量控制带来了新的思路和方法。

研究人员采用了多种关键技术方法。首先,收集了来自浙江肿瘤医院、东阳人民医院和台州肿瘤医院的 400 份超声报告,构建了包含无错误报告、真实错误报告和人工插入错误报告的数据集 。然后,依据中国 2022 年超声质量控制指南,经过资深医生严格审核确定错误类型和标准。研究分三个阶段进行,第一阶段在零样本设置下评估 Claude 3.5 Sonnet、GPT-4o、GPT-4 和 GPT-3.5 检测报告错误的能力;第二阶段选取表现最佳的两个模型,在少样本设置下进一步探究其错误检测能力;第三阶段利用相同测试集,评估不同经验水平放射科医生的错误检测能力和用时,并与模型结果对比。

下面来看具体的研究结果:

  • 零样本错误检测性能:在报告的零样本错误检测任务中,Claude 3.5 Sonnet 表现最佳,检测率达到 52.3%(127/243),其阳性预测值(PPV)为 76.5%(95% CI:69.8%,83.4%),真阳性率(TPR)为 52.3%(95% CI:46.0%,58.8%),F1 分数为 62.1%(95% CI:56.2%,68.0%)。GPT-4o 次之,检测率为 41.2%(100/243) 。GPT-3.5 表现最差,检测率仅 4.9%(12/243)。进一步分析不同错误类型的检测情况,Claude 3.5 Sonnet 在所有错误类别中都表现出色,尤其擅长识别矛盾结论和项目遗漏错误;GPT-4o 在检测拼写错误方面表现较好。
  • 少样本错误检测性能:Claude 3.5 Sonnet 和 GPT-4o 在少样本设置下的错误检测率均有所提高,但 Claude 3.5 Sonnet 的提升更为显著。Claude 3.5 Sonnet 的 PPV 从 75.0% 显著提高到 91.4%(P<0.05),F1 分数从 56.2% 提升到 65.0%,TPR 从 44.9% 提高到 50.4%,且假阳性报告率(FPRR)从 9.5% 显著降至 3.0%(P>0.05) 。GPT-4o 虽然检测率有所上升,但 PPV 从 87.0% 大幅下降到 70.3%,FPRR 从 3.5% 增加到 11.0%。
  • 与放射科医生对比:在与不同经验水平放射科医生的对比中,Claude 3.5 Sonnet 在少样本设置下的错误检测率与放射科医生的平均水平相当,且在处理速度上具有明显优势,平均每份报告处理时间仅 13.2 - 17.2 秒,而最快的放射科医生也需要 42 秒。GPT-4o 在检测拼写错误方面有时能超越人类专家,但整体表现受较高的假阳性率影响。

研究结论和讨论部分指出,该研究首次系统评估了 LLMs 在中文超声报告质量保证中的作用。LLMs,尤其是 Claude 3.5 Sonnet 和 GPT-4o,在检测超声报告错误方面展现出巨大潜力,有望成为提高报告准确性、优化患者管理的重要辅助工具。然而,LLMs 也存在一些局限性,如较高的假阳性率,以及缺乏人类专家丰富的临床经验和上下文理解能力。因此,在临床应用中,LLMs 应被视为辅助工具,同时需要建立严格的质量控制机制,定期评估和更新模型性能,并为使用这些工具的医疗专业人员提供持续培训。此外,研究还发现不同经验水平的放射科医生在错误检测能力上存在差异,且错误检测能力可能与特定错误特征和个人工作习惯更相关,这为针对性的培训和质量改进提供了方向。

总的来说,这项研究为 LLMs 在医疗领域的应用提供了重要参考,为未来优化 LLMs 在多语言医疗环境中的使用、探索其与医学图像分析的协同作用奠定了基础,有望推动 AI 辅助医疗质量控制的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号