
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多频动态引导与交互网络(MDGINet):基于大核膨胀卷积的图像去噪新范式
【字体: 大 中 小 】 时间:2025年06月30日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对现有CNN去噪方法过度依赖网络深度导致结构信息丢失的问题,浙江大学团队提出多频动态引导与交互网络(MDGINet)。该网络通过频率分解块(FDB)结合大核膨胀卷积分离多频特征,利用频率动态引导注意力模块(FGAM)选择性增强特征,配合频率交互块(FIB)和渐进坐标注意力融合块(PCFB)实现多频协同优化。实验表明其在合成/真实噪声数据集上均超越现有方法,为图像复原提供新思路。
在数字图像采集与传输过程中,噪声污染始终是困扰计算机视觉领域的顽疾。传统基于卷积神经网络(CNN)的去噪方法往往陷入"深度竞赛"的怪圈——通过不断增加网络层数来提升性能,却忽视了图像固有的多尺度结构特征。这种"暴力堆叠"策略不仅导致计算资源浪费,更会因感受野受限而丢失关键纹理信息。如何在不牺牲效率的前提下,让神经网络像人类视觉系统那样智能区分并处理不同频率的视觉特征,成为摆在研究者面前的重大挑战。
针对这一难题,浙江大学的Heng Li等人创新性地将频域分析思想引入深度学习框架,提出多频动态引导与交互网络(Multi-frequency Dynamic Guidance and Interaction network, MDGINet)。该工作发表在《Knowledge-Based Systems》期刊,其核心突破在于首次将大核膨胀卷积与动态注意力机制相结合,构建起从特征分解、交互到重建的完整频域处理链条。研究团队采用频率分解块(Frequency Decomposition Block, FDB)作为"特征筛",通过设置不同膨胀率的大核卷积(如5×5卷积核配合dilation rate=2)有效分离低频轮廓、中频纹理和高频细节成分。特别设计的频率动态引导注意力模块(Frequency Dynamic Guidance Attention Module, FGAM)则充当"智能调节阀",通过通道注意力机制动态评估各频段特征的重要性并实施差异化增强。
关键技术方法包括:(1)基于伯克利分割数据集(432张图像)构建221,184个48×48训练样本;(2)采用频率交互块(Frequency Interaction Block, FIB)通过残差连接优化低/中频特征;(3)设计渐进坐标注意力融合块(Progressive Coordinate-attention Fusion Block, PCFB)整合多频信息;(4)在真实噪声数据集(100张512×512图像)验证泛化性。
【Network architecture】部分揭示MDGINet的四大创新组件:FDB通过级联膨胀卷积构建"频率金字塔",其输出的多频特征经深度可分离卷积独立处理;两个FIB分别采用3×3和5×5卷积核专注优化不同频段;PCFB通过多尺度坐标注意力(Coordinate Attention)建立跨频段关联;重建块(Reconstruction Block, RB)则采用1×1卷积实现特征聚合。这种架构使网络参数量减少23%的同时,在BSD68数据集上PSNR指标提升0.8dB。
【Database】部分显示实验设计的严谨性:对于合成噪声,采用标准差σ∈[30,70]的加性高斯白噪声(AWGN);真实噪声测试则包含低光照、传感器噪声等复杂场景。值得注意的是,团队在DND基准测试中首次实现SSIM>0.9的突破,证明该方法对非稳态噪声的鲁棒性。
【Conclusion】部分强调该研究的三大贡献:(1)建立频域动态引导新范式,FGAM模块使网络能自适应噪声分布调整特征权重;(2)提出膨胀卷积与坐标注意力的协同机制,在SIDD数据集上比MIRNet节省40%计算成本;(3)为轻量化去噪网络设计提供新思路,移动端部署测试显示其推理速度达17fps@1080p。
这项研究的深远意义在于突破了传统去噪网络"端到端黑箱"的局限,将人类视觉系统的频率处理机理成功转化为可解释的深度学习架构。正如通讯作者Feng Shao在讨论中指出的,MDGINet的频率动态引导策略可扩展至其他低层视觉任务,其核心思想——"分解→分析→重组"的处理框架为计算机视觉与认知科学的交叉研究搭建了新桥梁。未来工作将探索该模型在医学影像去噪和内窥镜图像增强等领域的应用潜力。
生物通微信公众号
知名企业招聘