零样本多模态大型语言模型与监督式深度学习:基于CT的颅内出血亚型分类的比较分析

《Brain Hemorrhages》:Zero-Shot Multi-modal Large Language Models v.s. Supervised Deep Learning: A Comparative Analysis on CT-Based Intracranial Hemorrhage Subtyping

【字体: 时间:2025年11月09日 来源:Brain Hemorrhages 1.4

编辑推荐:

  准确识别非对比CT影像中的脑出血(ICH)亚型对预后和治疗至关重要,但低对比度和边界模糊增加了难度。本研究评估了多模态大语言模型(MLLMs)与传统的深度学习模型(如ResNet50、Vision Transformer)在ICH检测与亚型分类中的性能。通过192例NCCT影像数据,发现传统深度学习模型在检测和分类任务中表现更优,尤其是SwinTransformer-v2-B在亚型分类中F1分数达0.8898。相比之下,MLLMs(如GPT-4o、Gemini 2.0 Flash)在亚型识别上存在显著差距,Gemini 2.0 Flash的宏平均F1为0.3116,而ResNet50为0.8512。尽管MLLMs在交互解释性上具有优势,但在低对比度场景和小出血量识别上仍面临挑战。研究建议未来需通过数据增强和模型微调提升MLLMs的医学图像处理能力。

  脑内出血(Intracranial Hemorrhage, ICH)是一种严重威胁生命的急性脑血管疾病,每年影响全球约200万人。尽管医学护理技术不断进步,但ICH的30天死亡率仍然高达35%至52%,仅有五分之一的幸存者在发病后六个月实现完全康复。ICH的病因复杂,通常与外伤、高血压、血栓、肿瘤或血管畸形等因素相关。这些病因可能导致一种或多种ICH亚型,通常根据出血位置分为硬膜外出血(EDH)、脑实质出血(IPH)、脑室出血(IVH)、蛛网膜下腔出血(SAH)和硬膜下出血(SDH)。在ICH的急性期,非对比CT(NCCT)扫描被广泛用于检测和区分特定的出血亚型,有助于制定及时且个性化的治疗方案。此外,NCCT在手术过程中和随访评估中也起着关键作用,以监测残余出血和恢复情况。因此,基于NCCT快速而准确地识别ICH及其亚型对全球医院至关重要,特别是在医疗资源有限的地区,缺乏经验丰富的临床医生和先进的影像技术。

在ICH亚型的检测中,由于出血区域与周围软组织的对比度较低,边界模糊,给准确识别带来了巨大挑战。近年来,人工智能技术的发展推动了ICH亚型诊断方法的创新,早期研究主要依赖卷积神经网络(CNNs)从切片中提取低级特征。随后,研究人员引入了注意力机制和更复杂的网络结构,以提高模型的解释性和分类能力。此外,一些研究通过优化预处理流程,如减少伪影干扰,来提升ICH检测的准确性。同时,半监督学习框架也被用于解决数据稀缺问题,确保模型在有限数据下仍能保持诊断的鲁棒性。这些技术进步使得计算机辅助的ICH诊断系统更加可靠和实用。

然而,传统的深度学习方法主要生成简单的分类结果或检测结果,缺乏与人类专家之间的互动。这使得在实际应用中,放射科医生仍需仔细分析出血量、严重程度、治疗选择等信息,这需要大量的临床经验和工作量。随着人工智能的进一步发展,特别是多模态大语言模型(Multi-Modal Large Language Models, MLLMs)的出现,它们结合了强大的视觉处理能力和自然语言交互能力,能够与用户进行更直观的交流,从而在医疗影像分析中展现出新的潜力。MLLMs能够提供有价值的鉴别诊断,生成初步的结构化报告,描述病变特征,评估疾病负担,并推荐适当的治疗和随访方案。这些能力有助于放射科医生在病例筛选、优先级排序和决策支持方面提高效率。

尽管MLLMs在某些方面展现出优势,但本研究通过实验对比发现,传统的深度学习模型在ICH检测和亚型分类任务中表现更为优异。具体而言,在ICH二分类任务中,传统模型的准确率、精确率和F1分数均高于MLLMs。在ICH亚型分类任务中,MLLMs的准确率、精确率、敏感度和F1分数显著低于基于CNN和Transformer的分类器。例如,Gemini 2.0 Flash在亚型分类中的宏平均精确率为0.41,F1分数为0.31,远低于基于深度学习的模型,如SwinTransformer-v2-B的精确率为0.8782,F1分数为0.8569。这些结果表明,虽然MLLMs在交互性和可解释性方面具有优势,但在ICH亚型识别的准确性上仍存在较大差距。

本研究采用了192个NCCT体积数据集,其中包含6,404个切片,这些数据来自放射学会(RSNA)提供的脑出血数据集。在实验过程中,研究人员对不同的MLLMs(如GPT-4o、Gemini 2.0 Flash和Claude 3.5 Sonnet V2)以及开放源代码的MLLMs(如Qwen-VL-3b-Instruct、DeepSeek-VL2-Tiny和LLaVA-Med-v1.5-Mistral-7b)进行了评估。同时,还对基于CNN和Transformer的分类器(如ResNet50、ViT-B、ViT-L和SwinTransformer-v2-B)进行了比较分析。实验中采用了渐进式提示设计,通过逐步引导模型完成从出血存在与否的判断到具体亚型的识别,再到定位和体积估计的任务。这种设计不仅评估了模型在不同任务上的表现,还探索了模型在诊断流程与临床决策之间的推理能力。

实验结果显示,尽管MLLMs在某些任务上表现良好,如描述出血位置、提供治疗建议和识别异常情况,但在ICH亚型分类任务中仍存在明显不足。特别是对于对比度较低或分布较为分散的出血类型,如SAH,MLLMs的识别能力显著下降。此外,金属伪影的存在可能导致模型误判,将金属物体或钙化灶识别为出血区域,从而影响检测结果的准确性。这些现象表明,MLLMs在处理复杂医学影像时仍面临一定的挑战,尤其是在小病灶识别和多模态信息融合方面。

为了提高MLLMs在ICH亚型分类中的性能,研究人员建议未来应进一步优化模型,特别是针对开放源代码模型的微调。此外,开发更高精度的MLLMs,使其能够处理三维医学影像,是提升其在ICH管理中应用价值的重要方向。通过构建专门用于ICH亚型分类的结构化图像-文本数据集,并探索模型的微调策略,有望在一定程度上改善MLLMs的表现,使其在实际临床环境中发挥更大的作用。

本研究还指出了其局限性。首先,由于硬件资源的限制,研究中使用了参数规模相对较小的开放源代码模型,这可能影响其在ICH亚型分类任务中的表现。其次,当前的MLLMs在处理ICH亚型预测时仅限于二维切片,这可能导致某些颅内结构被误判为高密度出血区域。因此,未来的研究应聚焦于开发能够处理三维医学影像的高精度MLLMs,以更全面地评估其在ICH亚型识别中的潜力。

综上所述,尽管MLLMs在医学影像分析中展现出一定的优势,特别是在可解释性和交互性方面,但它们在ICH亚型识别任务中的准确性仍显著低于传统的深度学习模型。这表明,当前的MLLMs在医学影像处理上仍需进一步优化,特别是在提升模型对复杂病变特征的识别能力方面。未来的研究应结合更多医学领域的专业知识,开发更加精准和可靠的MLLMs,以满足临床需求。同时,构建结构化数据集和探索模型的微调策略,也是提升MLLMs在ICH管理中应用价值的关键方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号