基于Segment Anything模型的音视频分割简易方法SAVE:高效实现跨模态精准定位

【字体: 时间:2025年08月15日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文推荐:研究者提出SAVE模型(Segment Audio-Visual Easy way),通过改进预训练分割模型(SAM),创新性地引入图像编码器适配器和残差音频编码器适配器,在256像素低分辨率输入下实现音频-视觉分割(AVS)任务的最优性能(mIoU达86.16)。该方法显著提升训练/推理速度,为手术导航、AI辅助诊断等医学场景提供高效解决方案。

  

Highlight

本研究亮点在于将强大的分割基础模型(SAM)改造为高效的音视频分割(AVS)系统,仅需1/16常规计算资源(256 vs 1024像素输入)即可超越现有技术,为实时医疗应用铺平道路。

Section snippets

Related work

近期多媒体研究涵盖视觉声源定位(SSL)、音视频分离等方向。传统方法依赖1024像素高分辨率输入,导致计算负担沉重。相比之下,我们的SAVE模型在保持精度的同时大幅降低硬件需求。

Image encoder adapter module

图像编码器适配模块:

通过冻结原始SAM编码器参数,在每个transformer块嵌入轻量级适配层,实现数据特异性知识注入。如图1所示,该设计使模型在通道和空间维度上增强音视觉特征融合,计算开销降低76%。

AVSBench dataset

基准数据集表现:

在AVSBench的S4子集(半监督单声源分割)上,SAVE对救护车、猫、狗等类别的零样本识别mIoU超越SAMA-AVS 5.3-8.7个百分点,验证了合成数据预训练的有效迁移性。

Conclusion

结论:

SAVE开创性地证明:通过适配器微调预训练模型,可在低分辨率输入下实现卓越的跨模态分割性能。该框架为医学影像实时处理(如肿瘤边界识别)提供内存友好的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号