基于Segment Anything模型的音视频分割简易方法SAVE：高效实现跨模态精准定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月15日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　本文推荐：研究者提出SAVE模型（Segment Audio-Visual Easy way），通过改进预训练分割模型(SAM)，创新性地引入图像编码器适配器和残差音频编码器适配器，在256像素低分辨率输入下实现音频-视觉分割(AVS)任务的最优性能（mIoU达86.16）。该方法显著提升训练/推理速度，为手术导航、AI辅助诊断等医学场景提供高效解决方案。

Highlight

本研究亮点在于将强大的分割基础模型(SAM)改造为高效的音视频分割(AVS)系统，仅需1/16常规计算资源（256 vs 1024像素输入）即可超越现有技术，为实时医疗应用铺平道路。

Section snippets

Related work

近期多媒体研究涵盖视觉声源定位（SSL）、音视频分离等方向。传统方法依赖1024像素高分辨率输入，导致计算负担沉重。相比之下，我们的SAVE模型在保持精度的同时大幅降低硬件需求。

Image encoder adapter module

图像编码器适配模块：

通过冻结原始SAM编码器参数，在每个transformer块嵌入轻量级适配层，实现数据特异性知识注入。如图1所示，该设计使模型在通道和空间维度上增强音视觉特征融合，计算开销降低76%。

AVSBench dataset

基准数据集表现：

在AVSBench的S4子集（半监督单声源分割）上，SAVE对救护车、猫、狗等类别的零样本识别mIoU超越SAMA-AVS 5.3-8.7个百分点，验证了合成数据预训练的有效迁移性。

Conclusion

结论：

SAVE开创性地证明：通过适配器微调预训练模型，可在低分辨率输入下实现卓越的跨模态分割性能。该框架为医学影像实时处理（如肿瘤边界识别）提供内存友好的解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号