
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向感知图像质量评估的多粒度嵌入优化与空间-通道自适应调谐方法
【字体: 大 中 小 】 时间:2025年06月30日 来源:Neurocomputing 5.5
编辑推荐:
为解决图像质量评估(IQA)中传统方法对复杂失真场景适应性不足的问题,研究人员提出基于Vision Transformers(ViTs)的多粒度嵌入优化框架(Q-Tuning)。该研究通过空间调谐(调整卷积核尺寸)和通道调谐(调整特征维度)策略增强质量表征能力,结合KNN进化算法动态优化融合参数。实验表明该方法在12个基准数据集上实现最优性能,为社交平台图像处理管线优化提供新思路。
在数字图像爆炸式增长的时代,社交媒体每天产生数十亿张图片,但压缩、缩放和拍摄技术缺陷导致的画质劣化严重影响着用户体验。虽然主观图像质量评估(IQA)可靠,但其效率低下难以满足实际需求。传统盲图像质量评估(BIQA)方法依赖手工特征,而早期深度学习模型受限于数据量和参数初始化问题。随着Vision Transformers(ViT)在视觉任务中的突破,如何利用其长程依赖捕捉能力进行精准质量评估成为研究热点。
中山大学的研究团队在《Neurocomputing》发表论文,提出创新的Q-Tuning框架。该方法受适配器调谐(Adapter-tuning)和提示调谐(Prompt-tuning)启发,通过多粒度嵌入优化解决ViT在IQA任务中的特征表征局限。研究采用12个包含真实失真和合成失真的数据集验证,包括BID、CLIVE等真实场景数据集,通过空间-通道联合调谐策略和KNN进化算法优化,最终在各类失真场景下达到最优评估性能。
关键技术包括:1) 多尺度卷积核空间调谐(8×8至16×16);2) 动态通道维度调整(64-256维);3) KNN进化算法融合多粒度特征;4) 基于ViT的混合编码架构。实验使用PyTorch框架,在NVIDIA V100 GPU上训练,采用PLCC和SRCC作为评估指标。
【空间调谐方法】通过设计不同核尺寸(8/12/16)的卷积滤波器组,验证较小核尺寸(8×8)对真实失真更敏感,而较大核尺寸(16×16)更适合合成失真。在CLIVE数据集上,8×8核的SRCC达到0.892,比基线高6.2%。
【通道调谐策略】实验表明256维通道在KonIQ-10k数据集上PLCC为0.916,但计算成本较高。提出动态调整机制,对高频失真保留128维关键通道,在SPAQ数据集上实现精度与效率平衡。
【联合优化效果】KNN进化算法融合多粒度特征后,在跨数据集测试中平均SRCC提升9.8%。特别在夜间图像数据集NIQE上,联合策略的PLCC突破0.85,显著优于单策略方法。
【消融实验】移除空间调谐模块导致合成失真数据集TID2013性能下降14.3%,而去除通道调谐则使真实失真数据集BID的SRCC降低8.1%,证实双策略互补性。
该研究创新性地将ViT调谐技术引入IQA领域,其多粒度嵌入优化框架突破传统单尺度特征局限。空间-通道自适应机制能精准捕捉从局部纹理到全局语义的质量线索,KNN进化算法则为多特征融合提供新思路。在医疗影像和自动驾驶等对图像质量敏感领域,该方法为实时质量监控系统开发奠定基础。未来可扩展至视频质量评估,并探索与生成式AI的结合应用。研究获得国家自然科学基金支持,相关代码已开源。
生物通微信公众号
知名企业招聘