模拟初级视觉通路的轮廓检测网络研究

【字体: 时间:2025年05月16日 来源:Digital Signal Processing 2.9

编辑推荐:

  图像轮廓检测在多领域应用广泛,传统方法存在噪声敏感等局限,生物启发模型结构简单,深度学习模型参数多。研究人员受初级视觉通路启发,提出 PVP-UNet,在多数据集 ODS 得分佳,有效抑制噪声、突出轮廓,具重要意义。

  
在图像分析的广阔天地中,轮廓检测宛如一把神奇的钥匙,为物体识别、图像分割等诸多高级视觉任务打开大门。然而,传统的边缘检测方法,像依赖梯度算子的 Sobel、Prewitt、Canny 等算子,虽能快速提取边缘,却如同敏感的 “玻璃人”,对噪声格外惧怕,而且检测结果还深受算子尺度、权重分布等参数的左右,在复杂背景中难以精准分辨主体与纹理噪声。生物启发的视觉机制模型虽能借助模拟生物视觉处理机制,从图像中快速提取主轮廓,对噪声有更强的抵抗力,但它们的结构相对简单,参数调整和优化常常依赖实验者的经验,无法充分展现视觉系统的复杂性、多样性和多层次性,还缺乏自学习和自调节获取图像信息的能力。深度学习领域的卷积神经网络(CNNs)虽然能自动学习图像的多层轮廓特征,在复杂背景和噪声条件下也能更准确地提取主轮廓,可这些模型的构建往往缺乏理论支撑,还常基于 VGG 等预训练主干网络,融入复杂解码器,导致参数数量大增,模型复杂度上升,处理速度受到不良影响。

为了突破这些困境,来自相关研究机构的研究人员开展了受生物视觉特征级联网络启发的研究,提出了基于初级视觉通路的边缘检测网络(PVP-UNet),该研究成果发表在《Digital Signal Processing》。

研究人员采用了以下主要关键技术方法:在编码器中,设计了基于双眼视网膜层 - 外侧膝状体核(LGN)层 - 初级视皮层(V1)层的多级交互模块,以模拟初级视觉通路的前馈连接,其中运用了可变形卷积模块来模拟左右视网膜的感受野,还利用扩张卷积模块和普通卷积模块分别模拟 LGN 的大细胞(M)通路和小细胞(P)通路,并设计了基于 V1 层经典 / 非经典感受野(CRF/NCRF)抑制机制的抑制模块,同时借助 V1 层简单细胞到复杂细胞的聚合特性来部署抑制模块的互连模式;在解码器中,引入特征融合模块,以模拟视觉信息的反馈机制,沿初级视觉通路信号传输的反方向整合不同编码层的特征。研究使用了 BSDS500、NYUD 和 BIPED 数据集进行评估,BSDS500 包含 200 张训练图像、100 张验证图像和 200 张测试图像,还与 PASCAL VOC 结合扩展了训练数据,NYUD 数据集分为 RGB 和 HHA 两个子数据集,每个子数据集包含 381 张训练图像、414 张验证图像和 654 张测试图像,分别在这两个子数据集上进行训练。

实验结果


通过一系列实验,得出了以下结论:在 BSDS500、NYUD 和 BIPED 数据集上,PVP-UNet 的最佳数据集尺度(ODS)得分分别达到 0.811、0.756 和 0.896。这表明该网络能够有效抑制背景噪声,突出主要轮廓,在测试数据集上展现出了出色的检测性能。

结论和讨论


本研究受初级视觉通路启发,将生物初级视觉通路的双眼视觉、视交叉通路以及 CRF/NCRF 抑制机制与 CNN 轮廓检测模型相结合,提出了新颖的轮廓检测模型 PVP-UNet。PVP-UNet 首先通过可变形卷积模块从编码器的原始输入生成调制特征,使网络能够更灵活地提取图像中不规则物体的特征。然后,通过卷积操作模拟 LGN 的 M 通路和 P 通路,为 V1 提供丰富的多尺度输入特征。V1 模块整合了 NCRF 和 CRF 的调制特性以及简单细胞和复杂细胞的感受野聚合特性,实现了 V1 内轮廓特征的交互和整合,增强了网络有效抑制噪声的能力。解码器中的特征融合模块通过模拟视觉信息的反馈机制,进一步提升了轮廓检测的准确性。该研究为图像轮廓检测提供了一种新的思路和方法,有望在汽车制造、电子、自动驾驶、生物医学等领域得到更广泛的应用,为相关领域的发展提供有力的技术支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号