通过自适应的视觉-文本引导的原型关系优化,克服一次性语义分割中的限制

《IEEE Transactions on Circuits and Systems for Video Technology》:Overcoming Limitations in One-Shot Semantic Segmentation via Adaptive Visual-Text Guided Prototype Relationship Optimization

【字体: 时间:2025年11月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  针对少样本医学图像分割中前景背景相似性和前景内部差异性导致的模型性能受限问题,提出AVT-ProNet框架。通过自适应视觉-文本原型生成、图神经网络优化子区域原型关系、双空间对比原型学习三个模块协同工作,有效解决现有原型方法在解剖结构区分和复杂特征表征上的不足,在CHAOS、SABS和CMR等多临床场景数据集上显著优于现有方法。

  

摘要:

医学成像领域高质量标注数据的稀缺性严重限制了基于深度学习的分割模型的性能。虽然少样本医学图像分割(FSMIS)作为一种有前景的解决方案应运而生,但现有方法在处理前景-背景区域之间的类别相似性以及前景对象内部的类别异质性时存在关键局限性。目前的基于原型的方法主要集中在从支持图像中整体提取原型,未能有效区分细微的解剖结构变化和复杂的特征表示。AVT-ProNet包含三个创新组件:1) 自适应视觉-文本原型生成(AVPG)模块,通过自适应提示策略利用CLIP的跨模态引导能力;2) 基于图的多区域原型关系优化(GMPRO)模块,通过图神经网络建立分解后的子区域原型之间的结构关系;3) 前景-背景原型对比学习(FBPCL)策略,通过类别间分离和类别内紧凑性实现双空间优化。多模态引导、结构关系建模和对比原型细化的协同集成使我们的框架能够克服FSMIS中的现有局限性。在多种临床场景(CHAOS、SABS和CMR数据集,采用不同的训练配置)中的全面评估表明,其性能优于现有最先进的方法,包括PANet、CAT-Net、DMAP以及最近的PAMI基线。源代码可在此处获取:https://github.com/394481125/AVT-ProNet。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号