基于低质量感知适配器的医学图像分割增强方法：多模态融合与对比学习驱动下的性能突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月25日 来源：Computer Vision and Image Understanding 4.3

编辑推荐：

　　为解决医学图像因设备噪声和低分辨率导致的现有分割基础模型（如SAM/MedSAM）性能下降问题，研究人员提出了一种集成低质量感知适配器（Low-Quality Perception Adapter）的创新框架。该研究通过对比学习对齐图像-文本特征，采用两阶段渐进式融合策略（Two-Stage Multimodal Fusion），在MSD、COVID-19等数据集上实现mIoU提升24.6%，为低质量医学图像分割提供了新范式。

在医学影像诊断领域，清晰的图像分割结果对疾病识别至关重要。然而，现实中的医学图像常因设备限制或成本约束存在严重噪声和低分辨率问题，这导致基于海量高质量数据训练的分割基础模型（如Segment Anything Model, SAM）表现大幅下降。传统解决方案如超分辨率重建（DSRLL）或复杂网络设计（MT-UNet）往往难以兼顾效率与泛化性，而多模态方法（如MedCLIP）又缺乏对低质量特征的针对性处理。这一矛盾促使研究人员探索如何让基础模型适应"不完美"的医学图像。

中国的研究团队提出了一种革命性的低质量感知适配器（Low-Quality Perception Adapter），该模块通过三阶段创新设计攻克了上述难题。首先，适配器从噪声图像中蒸馏出本质统计特征，并通过对比学习（Contrastive Learning）将其与文本属性对齐——例如将模糊的肿瘤区域与"边缘不规则"等描述词关联。接着采用两阶段渐进融合策略：第一阶段通过多层次文本-图像融合（Multilevel Text-Image Fusion）整合CT图像与放射报告信息，第二阶段引入基础模型的视觉先验知识。最终，配备自注意力（Self-Attention）和交叉注意力（Cross-Attention）机制的解码器生成精确分割掩膜。这种设计既保留了SAM的零样本泛化能力，又通过文本引导增强了模型对模糊边界的判断力。

关键技术包括：1）基于MSD、COVID-19等5个公开数据集的低质量图像模拟；2）CLIP架构改进的多模态对齐；3）U-Net式编码器-解码器（Encoder-Decoder）与Transformer的混合设计。研究特别在3,616例COVID-19胸片测试中验证了有效性。

研究结果

噪声鲁棒性提升：在添加高斯噪声的GLAS数据集上，模型mIoU达到78.3%，较MedSAM提升19.2%。
小目标分割优化：对ISIC皮肤病变中<5mm的病灶，像素准确率（Pixel Accuracy）提高13.6%。
跨模态协同效应：文本特征使血管模糊的眼底出血图像分割Dice系数提升11.4%。

讨论与展望
该研究首次实现了基础分割模型对低质量医学图像的自主适应，其核心突破在于将物理层面的图像修复（去噪/超分辨）与语义层面的多模态理解相结合。值得注意的是，模型在保持SAM原有架构的前提下，仅通过添加轻量级适配器（参数增加<3%）即实现性能飞跃，这为临床部署提供了可行性。局限性在于对极端模糊（如运动伪影）的处理仍需改进，未来可通过引入扩散模型（Diffusion Model）进一步优化。

这项发表于《Computer Vision and Image Understanding》的工作，不仅为医学影像分析提供了新工具，更开创了基础模型"缺陷自适应"的研究方向。其提出的文本-视觉渐进融合范式，对推动多模态AI在医疗领域的落地具有里程碑意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号