
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语义集成Transformer赋能SAM模型实现零样本医学图像语义分割
【字体: 大 中 小 】 时间:2025年06月09日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
推荐:针对Segment Anything Model (SAM)在医学影像中缺乏语义理解的瓶颈,研究人员提出SIT-SAM框架,通过语义集成Transformer和记忆模块,在保留SAM零样本能力的同时实现解剖结构分类。该研究在TotalSegmentator数据集上达到90.55%准确率,较SAM-Med3D提升52.69%,为临床智能诊断提供新范式。
医学影像分析领域长期面临解剖结构语义分割的挑战。传统深度学习方法如U-Net需要大量标注数据,而新兴的Segment Anything Model (SAM)虽具备零样本实例分割能力,却无法自动识别解剖结构类别。这种语义缺失导致临床应用中需人工标注,严重制约效率。尤其对于3D医学影像如全身CT,复杂解剖边界的识别和罕见病变的泛化能力成为关键瓶颈。
针对这一难题,研究人员开发了SIT-SAM(语义集成Transformer适配SAM)框架。该创新性研究通过三个核心模块实现突破:保留原始SAM的零样本实例分割能力;设计多尺度特征提取的语义集成Transformer,融合几何与上下文特征;引入类脑记忆机制处理罕见解剖结构。在包含117类解剖结构的TotalSegmentator v2.01数据集测试中,SIT-SAM以90.55%的准确率显著超越基线模型52.69%,单点提示下仍有2.43%性能提升。
关键技术包括:基于TotalSegmentator数据集(1228例CT扫描)的跨模态验证;分层Transformer架构实现像素级特征与掩码几何的融合;键值存储记忆模块处理长尾分布数据。研究团队特别强调,该方法无需修改SAM原始架构,通过后处理分类实现语义增强,在数据受限场景下保持鲁棒性。
【医学图像语义分割】章节指出,FCN和U-Net等传统方法受限于固定感受野和标注数据量。相比之下,SIT-SAM通过Transformer的自注意力机制捕获全局上下文,结合SAM的提示学习机制,实现解剖结构的精准定位与分类。
【方法】部分详细阐述了三级架构:1) SAM生成初始实例掩码;2) 语义集成Transformer分析多尺度特征,利用掩码几何关系推断解剖类别;3) 记忆模块存储典型特征模式,通过相似度检索辅助罕见结构识别。这种设计使模型在仅见少量样本时仍能准确分类脾脏、胰腺等复杂器官。
【数据集与评估】显示,在70%-10%-20%的标准划分下,SIT-SAM对骨骼、血管等硬组织的分割Dice系数达93.2%,较SAM-Med3D的FCN头提升显著。十点提示策略带来0.78%额外增益,证实多模态交互的有效性。
【讨论】强调该框架的临床转化价值:既保留SAM的交互灵活性,又通过语义理解减少人工干预。记忆模块的引入特别适用于儿科等数据稀缺场景,对实现普惠医疗具有重要意义。
Wentao Shi等人在结论中指出,SIT-SAM首次实现零样本能力与语义理解的统一,为智能手术导航等应用奠定基础。未来工作将扩展至MRI等多模态数据,并探索病理特征的自动识别。该研究发表于《Biomedical Signal Processing and Control》,代码已开源(github.com/wentao0429/SIT-SAM),推动医学AI社区协同创新。
生物通微信公众号
知名企业招聘