
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在HOG(方向梯度)监督下设计的紧凑型CNN,用于实时视觉位置识别
《Scientific Reports》:HOG-supervised compact CNNs for real-time visual place recognition
【字体: 大 中 小 】 时间:2026年06月10日 来源:Scientific Reports 3.9
编辑推荐:
摘要 本文介绍了HOGNet,这是一个高效的深度学习框架,旨在复制并改进用于视觉位置识别(VPR)的定向梯度直方图(HOG)特征。HOGNet通过与手工制作的描述符结合使用,提高了效率和可解释性,同时利用了卷积神经网络(CNN)的表示能力,从而减少了对大规模标
本文介绍了HOGNet,这是一个高效的深度学习框架,旨在复制并改进用于视觉位置识别(VPR)的定向梯度直方图(HOG)特征。HOGNet通过与手工制作的描述符结合使用,提高了效率和可解释性,同时利用了卷积神经网络(CNN)的表示能力,从而减少了对大规模标注数据集和大量计算资源的需求。该模型开发了两种变体:HOGNet_441和HOGNet_1764,它们可以生成不同长度的HOG描述符,便于在各种计算环境中灵活应用。我们使用两个具有挑战性的数据集(Nordland数据集和India驾驶数据集(IDD-VPR)对HOGNet进行了评估,并与VGG16、ResNet101和MobileNet等现有架构进行了全面比较。HOGNet_441在验证集上的准确率为67.7%,召回率为90.76%,优于VGG16(召回率为88.00%),同时运行速度也快36倍(3.44毫秒对比124.17毫秒)。消融实验表明,添加HOG监督信息后,准确率比不使用HOG目标的基线CNN提高了5.55%。实验还发现,中间层的卷积层(Pool2、Pool3)在视觉位置识别任务中比输出层更有效。HOGNet的运行帧率约为290 FPS,适用于实时应用和资源受限的环境。这些研究结果强调了将手工制作的特征描述符融入深度学习模型中的潜力,有助于在准确率、可解释性和计算效率之间实现最佳平衡。
生物通微信公众号