《Biomedical Signal Processing and Control》:MedPrompt: LLM–CNN Fusion with Weight Routing for Medical Image Segmentation and Classification
编辑推荐:
医学影像的提示驱动分析框架MedPrompt通过整合大型语言模型和模块化CNN,实现自然语言指令的动态权重路由和高效多任务处理,在12项任务和5种影像模态中达到97%的端到端准确率,平均推理延迟2.5秒。
Shadman Sobhan|Kazi Abrar Mahmud|Abduz Zami|Mohiuddin Ahmed|Md Palash Uddin
孟加拉工程技术大学电气与电子工程系,达卡1000,孟加拉国
摘要
大多数现有的医学图像分析系统都是针对特定任务设计的,需要分别为分类和分割创建独立的模型,并且缺乏支持用自然语言表达的用户定义工作流程的灵活性。开发一个基于提示的医学辅助系统面临诸多挑战,包括需要大量标注的数据集、多模态数据(文本和图像)的整合、高计算需求,以及在不重新训练的情况下适应多样化任务的难度。为了解决这些问题,我们提出了MedPrompt,这是一个统一且可扩展的框架,它结合了少量样本提示的大型语言模型(LlaMA-4-17B)用于任务规划,以及模块化的卷积神经网络架构(DeepFusionLab)用于图像分析。LLM解析用户指令并生成结构化的JSON工作流程,动态选择并路由特定任务的预训练权重到DeepFusionLab——我们将其称为动态权重路由。这种方法消除了添加新任务时重新训练的需要,并支持多阶段和条件化的任务执行。我们在19个公共数据集上对MedPrompt进行了评估,涵盖了12个任务和5种成像方式。该系统在解释和执行自然语言提示方面的准确率达到97%,平均推理延迟为2.5秒(在CPU上),适用于近乎实时的临床应用。DeepFusionLab在分割精度(例如,肺部的Dice值约为0.9856)和分类性能(结核病的F1值约为0.9744)方面表现出色。总体而言,MedPrompt为广泛的临床场景提供了可扩展、可解释且准备就绪的基于提示的医学图像分析解决方案。
引言
自然语言是人类最常见的交流方式。相比之下,医学诊断主要依赖于成像技术,如X光、CT扫描、MRI和内窥镜检查[1]、[2]。专为图像处理任务设计的卷积神经网络(CNN)已成为医学图像分析的基石[3]、[4]、[5]。该领域的核心任务包括分割——定位器官或病变——和分类——识别疾病存在[6]、[7]、[8]。虽然已经出现了多任务视觉模型,但很少有模型支持通过自然语言提示进行分割。像Segment Anything Model (SAM) [9] 和 MedSAM [10] 这样的著名模型能够使用空间提示(点或边界框)实现零样本分割,但它们存在三个核心限制:(i) 空间提示不如文本提示直观,自动化难度更大;(ii) 为新解剖结构进行微调需要大量数据和计算资源;(iii) 这些模型仅专注于分割,需要额外训练才能完成分类任务。
大型语言模型(LLM)的最新进展使机器能够以类似人类的能力理解和处理文本[11]、[12]。同样,视觉-语言模型(VLM)现在也展示了强大的多模态推理能力[13]。然而,大多数VLM缺乏与图像处理骨干的深度集成,这限制了它们在密集预测任务(如分割)中的应用。通用医学模型旨在支持广泛的任务,但这通常会以性能为代价。Nguyen等人[14]的研究表明,即使经过微调,像SAM这样的模型在某些任务上的表现仍比专门设计的模型(如nnU-Net)低10%–15%。此外,像SAM(91M–636M参数)这样的通用模型比特定任务的CNN模型消耗更多的资源。
为了克服这些限制,我们引入了MedPrompt——一个基于提示的框架,它结合了少量样本提示的LLM和模块化的CNN(DeepFusionLab)。LLM解析用户指令,解释目标任务,并动态选择适当的预训练CNN权重来执行任务。这种策略被称为权重路由,确保了在特定医学任务上的高性能,同时保持了灵活性和可扩展性。添加新任务只需要训练DeepFusionLab并注册其权重;无需对整个系统进行更改。我们的主要贡献如下:
- •
我们提出了MedPrompt,这是一个统一的框架,它结合了少量样本提示的LLM和模块化的CNN架构(DeepFusionLab),可以从自然语言提示中执行分割和分类任务。这使得基于提示的医学图像分析变得用户友好,无需配置或重新训练手动任务。
- •
我们引入了一种新颖的动态权重路由机制,可以实时解释命令的意图、目标和模式,从而加载特定的预训练权重。这支持可扩展的任务执行,支持复杂的多阶段和条件化工作流程,并消除了添加新任务时完全重新训练的需要。
- •
我们设计并实现了DeepFusionLab,这是一个轻量级的双模态CNN,能够使用共享编码器和特定任务分支高效地进行分类和分割。在公共数据集、12个任务和5种成像方式上的广泛实验表明,该模型具有高精度和泛化能力,推理延迟接近实时(在CPU上为2.5秒),证明了MedPrompt适用于临床部署。
本文的其余部分组织如下:第2节回顾了相关工作并概述了关键的研究空白。第3节详细介绍了MedPrompt框架,包括DeepFusionLab架构和动态权重路由。第4节描述了实验设置,第5节展示了评估结果和消融研究。第6节总结了主要见解和未来发展方向。
章节片段
文献综述
卷积神经网络(CNN)已被广泛用于医学图像的分类和分割。ResNet [15]、DenseNet [16]、EfficientNet [17] 和视觉变换器(ViT)[18] 等架构显著提高了特征表示和计算效率。这些模型已被用于诊断COVID-19 [19]、糖尿病视网膜病变 [20] 和肺炎的CheXNet [21] 等疾病。对于分割任务,编码器-解码器模型如FCN [22] 和SegNet [23] 已经得到了应用
方法论
方法论首先从LLM接收用户定义的提示,并提取关键信息,如预期任务(例如分类或分割)、目标器官以及特定疾病或状况。LLM可以访问一个预训练权重的仓库,每个权重都与特定任务相关联,这些权重是通过训练CNN骨干DeepFusionLab生成的。利用这些知识,LLM构建了一个结构化的JSON格式的程序,该程序会迭代调用
实验设置
本节详细介绍了用于准备、训练和评估我们模型的实验框架,确保了在不同医学成像任务中的方法论严谨性和可重复性。
实验结果分析
本节展示了所提出的MedPrompt框架的评估结果。评估分为三个部分:(i) 结构化输出生成准确性;(ii) DeepFusionLab模型的性能;(iii) 整体框架的评估。由于结构化输出生成和框架级别的正确性紧密相关,因此它们在同一个表格中报告。
结论与未来工作
在这项工作中,我们提出了MedPrompt,这是一个将LLM与模块化CNN结合的框架,用于根据自然语言指令执行医学图像的分割和分类。通过将任务规划与图像分析解耦,MedPrompt允许用户用简单的语言描述他们的目标,而系统会动态选择并应用适当的预训练权重来执行任务。我们的实验在19个公开可用的数据集上进行了测试,涵盖了12个任务
CRediT作者贡献声明
Shadman Sobhan:撰写——原始草稿、可视化、验证、软件、资源、方法论、数据整理、概念化。Kazi Abrar Mahmud:撰写——原始草稿、可视化、验证、方法论、数据整理、概念化。Abduz Zami:撰写——原始草稿、可视化、方法论、调查、数据整理、概念化。Mohiuddin Ahmed:撰写——审稿与编辑、可视化、验证、监督、软件、方法论、调查、数据
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。