面向用户生成内容(UGC)视频质量评估的时空注意力特征融合方法STAFF-Net

《Displays》:Spatio-temporal attention feature fusion: A video quality assessment method for User-Generated Content

【字体: 时间:2025年10月15日 来源:Displays 3.4

编辑推荐:

  本文针对用户生成内容(UGC)视频质量评估(VQA)中动态失真检测不足、时空建模能力弱及长序列评估性能下降等问题,提出基于时空注意力特征融合的STAFF-Net模型。该模型通过多级静态特征加权、光流运动特征提取和时空Transformer编码器模块,显著提升了对复杂时空失真(如运动模糊、压缩伪影)的评估能力,在公开数据集上SROCC/PLCC指标超越现有方法,且与主观评分(MOS)高度一致。

  
Highlight
本研究亮点在于提出了一种创新的时空注意力特征融合网络(STAFF-Net),通过模拟人类视觉系统(HVS)的注意力机制,结合光学流(optical flow)动态特征提取和时空Transformer编码器,显著提升了对用户生成内容(UGC)视频中复杂失真(如运动模糊、光照不均)的评估精度。
Model architecture
STAFF-Net模型架构针对UGC视频失真的核心特征设计。空间失真通常非均匀分布于人类视觉敏感区域,因此引入空间注意力模块动态增强关键区域特征响应,抑制背景干扰,提升对局部压缩伪影和模糊的敏感性。时间维度上,通过光学流场捕捉帧间运动动态,并结合多头注意力(Multi-Head Attention)机制建模全局时空依赖,有效解决长序列视频的评估挑战。
Experiment setup
实验基于PyTorch框架,在LIVE-VQC、KoNViD-1k等五个主流视频质量评估数据集上验证。采用AdamW优化器(初始学习率1×10-4),余弦退火策略调整学习率,批量大小为8,训练70个周期。评估指标包含SROCC(斯皮尔曼等级相关系数)和PLCC(皮尔逊线性相关系数),确保结果统计显著性。
Conclusion
STAFF-Net通过空间注意力加权、动态特征提取和多模态融合,显著增强了对复杂时空失真的评估能力。其设计的显著区域动态加权模块结合边缘响应与视觉显著性分析,实现了空间自适应特征增强,为UGC视频质量评估提供了新范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号