从放射学报告中提取标签：大模型尺寸与提示策略的关键作用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月06日 来源：Journal of Imaging Informatics in Medicine

编辑推荐：

　　在训练医学图像分析模型时，从放射学报告中准确提取标签至关重要。研究人员使用 Llama-3、Phi-3 mini 和 Zephyr-beta 三种开源大语言模型（LLMs）开展研究。结果显示，LLMs 表现优于 CheXpert 标签器，大模型敏感性更好，测试集标注模式影响性能评估。该研究为相关领域提供了重要参考。

　　从放射学报告中提取准确标签对于训练医学图像分析模型来说至关重要。大语言模型（LLMs）有望实现这一过程的自动化。本研究旨在评估模型大小和提示策略如何影响开源 LLMs 中标签提取的准确性以及下游性能。研究人员使用了三种开源 LLMs（Llama-3、Phi-3 mini 和 Zephyr-beta），从 227,827 份 MIMIC-CXR 放射学报告中提取标签。通过与 2000 份 MIMIC-CXR 报告的人工注释进行对比，以及在 CANDID-PTX 数据集（n = 19,237）上训练用于气胸和肋骨骨折检测的图像分类器来评估性能。基于 LLMs 的标注表现优于 CheXpert 标注器，表现最佳的 LLM 在骨折检测上的敏感性达到 95%，而 CheXpert 仅为 51%。更大的模型表现出更好的敏感性，而思维链提示的效果则有所不同。在外部测试时，图像分类器对标注噪声具有一定的抗性。测试集标注模式的选择显著影响报告的性能，例如，在使用思维链标签训练的 Llama-3 模型上训练的分类器，在与人工注释进行评估时，气胸和骨折检测的 AUC 分别达到 0.96 和 0.84，而在 CheXpert 标签上评估时则为 0.91 和 0.73 。开源 LLMs 能够有效地大规模从放射学报告中提取标签。虽然通常较大的预训练模型表现更好，但模型大小和提示策略的选择应根据具体任务而定。仔细考虑评估方法对于解释分类器的性能至关重要。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号