
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Segment Anything模型的音视频分割简易方法SAVE:高效实现跨模态精准定位
【字体: 大 中 小 】 时间:2025年08月15日 来源:Computer Vision and Image Understanding 3.5
编辑推荐:
本文推荐:研究者提出SAVE模型(Segment Audio-Visual Easy way),通过改进预训练分割模型(SAM),创新性地引入图像编码器适配器和残差音频编码器适配器,在256像素低分辨率输入下实现音频-视觉分割(AVS)任务的最优性能(mIoU达86.16)。该方法显著提升训练/推理速度,为手术导航、AI辅助诊断等医学场景提供高效解决方案。
Highlight
本研究亮点在于将强大的分割基础模型(SAM)改造为高效的音视频分割(AVS)系统,仅需1/16常规计算资源(256 vs 1024像素输入)即可超越现有技术,为实时医疗应用铺平道路。
Section snippets
Related work
近期多媒体研究涵盖视觉声源定位(SSL)、音视频分离等方向。传统方法依赖1024像素高分辨率输入,导致计算负担沉重。相比之下,我们的SAVE模型在保持精度的同时大幅降低硬件需求。
Image encoder adapter module
图像编码器适配模块:
通过冻结原始SAM编码器参数,在每个transformer块嵌入轻量级适配层,实现数据特异性知识注入。如图1所示,该设计使模型在通道和空间维度上增强音视觉特征融合,计算开销降低76%。
AVSBench dataset
基准数据集表现:
在AVSBench的S4子集(半监督单声源分割)上,SAVE对救护车、猫、狗等类别的零样本识别mIoU超越SAMA-AVS 5.3-8.7个百分点,验证了合成数据预训练的有效迁移性。
Conclusion
结论:
SAVE开创性地证明:通过适配器微调预训练模型,可在低分辨率输入下实现卓越的跨模态分割性能。该框架为医学影像实时处理(如肿瘤边界识别)提供内存友好的解决方案。
生物通微信公众号
知名企业招聘