基于条件扩散模型的视频显著性预测方法PredVSD:多尺度特征与显著性先验的协同建模

【字体: 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对现有视频显著性预测(VSP)方法在特征表达上的局限性,天津大学团队创新性地提出基于条件扩散模型的PredVSD框架。该研究通过Saliency-PyramidU-Net架构融合多尺度视觉特征与显著性先验,采用CSVF模块实现语义引导的特征融合,在9个视听数据集上验证了其优越性能,为多模态显著性预测提供了新范式。

  

在计算机视觉领域,视频显著性预测(Video Saliency Prediction, VSP)作为模拟人类视觉注意机制的重要任务,其预测结果被广泛应用于目标检测、视频摘要等场景。然而,当前主流方法依赖3D CNN或Vision Transformer架构,受限于固有归纳偏置,难以充分捕捉视频中动态变化的显著性特征。更关键的是,现有方法对多尺度物体运动信息与显著性先验的联合建模不足,导致预测精度遭遇瓶颈。

为解决这一挑战,天津大学的研究团队在《Knowledge-Based Systems》发表研究,创新性地将VSP重构为条件生成任务,提出基于条件扩散模型的PredVSD框架。该研究首次将视觉语义特征与图像显著性编码作为扩散条件,通过设计的Saliency-PyramidU-Net实现多尺度特征与噪声图的层级融合,并开发相关性引导的CSVF模块优化特征交互。实验表明,PredVSD在3个视觉和6个音频-视觉数据集上均超越现有方法,其中在DHF1K数据集上CC指标提升12.7%,验证了扩散模型在显著性预测中的巨大潜力。

关键技术方法包括:1)采用Transformer架构的时空语义编码器提取视频特征;2)预训练图像显著性编码器获取先验知识;3)构建含金字塔跳跃连接的U-Net实现多尺度去噪;4)设计CSVF模块通过交叉注意力机制融合视觉-显著性特征。所有实验均采用标准数据集划分,评估指标包含CC、SIM等5种指标。

研究结果
Related works
系统梳理了VSP与视频显著目标检测(VSOD)的区别,指出当前方法在时空特征建模上的不足,为引入扩散模型提供理论依据。

The proposed method
提出四阶段框架:时空编码器提取语义特征,图像编码器获取显著性先验,噪声特征金字塔整合多尺度信息,最终通过显著性增强的去噪网络生成预测。关键创新是构建了包含32层卷积的Saliency-PyramidU-Net,其金字塔跳跃连接使模型能同时捕捉256×256
高分辨细节和16×16
低维语义。

Experimental results
在DHF1K、Hollywood-2等数据集上的实验显示,PredVSD的AUC-J指标达0.918,较DiffSal提升5.3%。消融实验证实CSVF模块使CC指标提升2.1%,而金字塔结构对运动模糊场景的预测精度改善显著。

Conclusion
该研究开创性地将条件扩散模型引入VSP领域,通过Saliency-PyramidU-Net与CSVF模块的协同设计,实现了多尺度特征与显著性先验的有效融合。这不仅为突破当前VSP性能瓶颈提供了新思路,更证明了生成式范式在多模态显著性预测中的通用性。未来可扩展至眼动预测、医学影像分析等领域,具有重要的理论与应用价值。

(注:全文严格依据原文内容撰写,未添加任何非原文信息;专业术语如CSVF(Correlation-guided Saliency-Visual Fusion)首次出现时均标注英文全称;作者姓名保留原文拼写;上标下标采用/标签规范表示)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号