
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于门控KAN与通道-位置注意力机制的图像去雨网络GKC-Net:突破Transformer二次计算复杂度的线性高效模型
【字体: 大 中 小 】 时间:2025年07月08日 来源:Pattern Recognition 7.5
编辑推荐:
针对Transformer在图像去雨任务中存在的二次计算复杂度(O(N2C))和局部细节丢失问题,研究人员提出融合门控KAN模块与通道-位置注意力机制(CPAM)的GKC-Net。该模型通过组间参数共享和方差保持初始化实现线性计算复杂度,在Rain100H等5个数据集上超越Restormer等SOTA方法,为高分辨率图像复原提供高效解决方案。
在手机随手拍成为主流的时代,突如其来的降雨常常让珍贵画面变成模糊的"水帘洞"。传统基于CNN的图像去雨方法如同用固定尺寸的渔网打捞雨丝——局部卷积核难以捕捉跨越整幅图像的长程雨纹关联,而静态权重更无法适应不同区域雨量密度的动态变化。Transformer虽通过自注意力机制打破这一局限,但其O(N2C)的二次计算复杂度让处理4K图像如同让蚂蚁搬运大象,且全局建模的特性又使其容易忽略细微雨滴和物体边缘的"指纹级"细节。
针对这一"效率与精度不可兼得"的困局,广西某高校的研究团队在《Pattern Recognition》发表的研究中,创新性地将柯尔莫哥洛夫-阿诺德网络(KAN)与门控机制结合,构建出GKC-Net模型。该模型通过门控KAN模块实现跨通道非线性聚合,配合通道-位置双分支注意力机制(CPAM),在Rain100H等数据集上PSNR指标提升2.1dB的同时,将1080P图像处理速度加快3.7倍。这项突破不仅为手机端实时去雨提供可能,更开创了线性复杂度全局建模的新范式。
关键技术方法
研究采用编码器-解码器架构,核心创新包含:1)门控KAN模块通过组间参数共享降低计算量,配合动态门控实现特征选择;2)CPAM机制采用1D卷积分解空间注意力,通过水平-垂直方向池化捕获雨纹取向;3)方差保持初始化保障深层网络训练稳定性。实验使用Rain100L/H等5个基准数据集,与Restormer等7类方法对比。
研究结果
结论与意义
该研究首次实现图像复原任务中全局建模与线性复杂度的统一:门控KAN通过动态特征选择突破CNN的静态局限,CPAM则建立通道-空间的"立体注意力"机制。特别值得注意的是,方向敏感池化技术将传统空间注意力的二维计算简化为两次一维操作,这种"降维打击"策略为后续研究提供新思路。正如作者Mengsi Gong在讨论部分指出,该方法在医疗影像去噪等需要兼顾全局病灶定位与局部细胞识别的场景中展现出移植潜力,其核心思想或将重新定义高效视觉计算的基准。
生物通微信公众号
知名企业招聘