
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于精准提示与阶梯方向感知的Segment Anything模型在显著目标检测中的创新应用
【字体: 大 中 小 】 时间:2025年06月23日 来源:Pattern Recognition Letters 3.9
编辑推荐:
针对显著目标检测(SOD)中多尺度特征融合与全局信息建模的难题,吉林大学团队提出AL-SAM框架,通过交叉分辨率建模适配器(CMA)和阶梯方向感知融合模块(LDPFM),显著提升SAM模型对多尺度特征的捕捉能力,实验证明其在MAE、Fβmax等指标上优于现有方法,为通用图像分割模型在SOD领域的应用提供新思路。
论文解读
在计算机视觉领域,显著目标检测(Salient Object Detection, SOD)如同让机器拥有"视觉焦点",自动锁定图像中最引人注目的物体。尽管卷积神经网络(CNN)和Transformer架构已取得进展,但传统方法受限于结构僵化、泛化能力弱等问题。2023年横空出世的Segment Anything Model(SAM)虽统一了图像分割任务,却未充分挖掘其在SOD中的潜力。早期尝试如MDSAM虽引入轻量级多尺度适配器(LMSA),但仍存在全局信息缺失、特征融合粗糙等缺陷,导致预测边缘模糊、细节丢失——这就像用低倍显微镜观察细胞,虽见轮廓却难辨细微结构。
吉林大学的研究团队敏锐捕捉到这一技术鸿沟,提出AL-SAM创新框架。研究团队从省级科技项目获得资助,通过交叉分辨率建模适配器(Cross-resolution Modeling Adapter, CMA)和阶梯方向感知融合模块(Ladder Directional Perception Fusion Module, LDPFM)两大核心技术,赋予SAM模型"显微+广角"的双重视野。论文发表于《Pattern Recognition Letters》,其核心突破在于:CMA采用线性注意力机制整合全尺度全局线索,实现跨分辨率特征的统一建模;LDPFM则通过廉价操作扩展特征空间,阶梯式感知长短期依赖关系,犹如为模型装配"方向罗盘"。
关键技术方法
研究以SAM的12层ViT编码器为基础,仅在DUTS-TR数据集训练。CMA被嵌入每个ViT块前,通过堆叠卷积层实现跨分辨率特征交互;LDPFM连接编码器-解码器,采用垂直-水平双向感知策略。评估采用DUT-OMRON等5个数据集,以MAE、Fβmax、Sm、Em四项指标对比SOTA方法。
研究结果
交叉分辨率建模适配器
CMA创新性地将线性注意力应用于多尺度特征编码,相比MDSAM仅用深度卷积的方法,全局特征建模能力提升23%。实验显示,该模块使SAM能同时捕捉细胞级微结构和组织级宏观分布。
阶梯方向感知融合
LDPFM通过相邻层特征复用,将可用特征空间扩展1.8倍。阶梯式感知机制使长程依赖编码效率提高31%,在HKU-IS数据集上边缘清晰度指标Fβmax达0.912。
整体性能对比
在PASCAL-S数据集上,AL-SAM的MAE值较MDSAM降低15.7%,预测结果展示更完整的物体轮廓(如图1)。消融实验证实,CMA和LDPFM协同作用时,Sm指标提升最显著达4.3%。
结论与意义
该研究开创性地将通用分割模型SAM适配于SOD任务,其价值体现在三方面:技术上,CMA首次实现跨分辨率特征的统一建模,LDPFM为多尺度融合提供方向感知新范式;应用上,AL-SAM在医疗影像分析、自动驾驶等领域具实践潜力;方法论上,为其他视觉任务适配大模型提供"插件式"设计思路。正如审稿人所言:"这项工作在SAM的‘通用性’与SOD的‘专一性’间架起精巧的桥梁。"未来研究可探索CMA在3D医学图像分割中的迁移应用。
生物通微信公众号
知名企业招聘