编辑推荐:
在水下目标检测领域,数据采集与标注困难、异构传感器协作不便。研究人员开展基于声纳和水下相机的多模态目标检测研究,利用独特方法生成合成数据集。该方法在真实视频中准确率分别达 77.7% 和 81.6%,有效推动水下检测技术发展。
随着海洋探索的不断深入,对海底环境进行高精度检测成为了极为迫切的需求。想象一下,在深邃神秘的海洋中,各类水下设施的安全监测、海底资源的勘探以及水下考古等工作,都离不开精准的水下目标检测技术。然而,目前的水下目标检测面临着诸多难题。一方面,光学图像在水下会受到光线传播的限制,导致可见度有限;另一方面,声纳图像虽然能够有效克服电磁波在水下传播的缺陷,但却存在噪声多、分辨率低、受海水介质影响产生图像畸变等问题 。而且,传统基于单一模态图像的目标检测算法,无论是传统方法还是基于深度学习的方法,都难以满足水下复杂环境的检测需求。在数据方面,基于声纳的检测面临数据集数量有限、样本少的困境,甚至常常出现待检测物体没有可训练样本的情况;在多模态协作方面,声纳和水下相机成像视角不同,导致模态间难以对齐。为了解决这些问题,研究人员开展了基于声纳和水下相机的多模态目标检测研究。最终得出的成果在实际应用中展现出了较高的有效性,为水下目标检测领域带来了新的突破,该研究成果发表在《Expert Systems with Applications》上。
研究人员在开展此项研究时,运用了多个关键技术方法。首先,针对零样本水下目标检测,通过在 3D 空间模拟不同大小、高度和角度的水下物体,依据声纳成像原理计算声学阴影区域,进而合成带标签的样本,并利用域适应技术减少与真实数据的分布差距。其次,对于水下相机采集的光学图像,通过计算显著性得到物体边界框,结合形状先验和相邻帧交比来排除干扰物体,实现多模态信息融合。此外,还搭建了一套基于声纳和相机的多模态水下数据采集设备。
基于声纳图像的目标检测方法
在声纳图像目标检测领域,过往研究成果丰硕。传统方法中,Lo 等人提出基于到达方向估计和卡尔曼滤波器的自动检测与跟踪模型;Tucker 等人设计基于相干模式的检测算法,在多声纳系统中检测效果良好;Karoui 等人利用联合概率关联和卡尔曼滤波器检测前视声纳中的障碍物;Klausner 等人提出基于拉普拉斯分布多元扩展的非高斯检测器;Wang 等人将中智集与扩散映射结合处理侧扫声纳图像。基于深度学习的方法也不断涌现,如 Character 等人基于 YOLOv3 提出声纳图像目标检测模型;Neves 等人在 YOLOv2 基础上改进,实现多目标检测;Kong 等人基于 YOLOv3 框架设计实时水下目标检测网络;Sung 等人提出深度学习检测与降噪方法;Topple 等人设计 MiNet 网络;Sun 等人提出双分支视觉 Transformer 网络 。但这些方法多依赖单模态图像,在水下复杂环境中存在局限性。
多模态目标检测模型的构建
本研究提出的多模态目标检测模型核心在于,在零样本条件下,于虚拟世界映射符合现实世界的物理规律,获取可自动标注的声纳数据集,以满足监督学习对大量样本的需求。准确建模并缩小声纳和相机领域的差距是关键。研究人员通过模拟水下物体,计算其在声纳图像中的阴影特征,合成接近真实样本的声纳图像并自动标注,用于监督训练,降低了数据采集和标注成本。同时,利用水下相机采集的光学图像,依据显著性信息计算物体边界框,结合形状先验和相邻帧交比排除干扰物体,作为辅助检测分支与声纳图像关联,实现多模态传感器信息的有效融合。
实验验证
研究人员在实验池中搭建了一套多模态水下数据采集设备,配备自制的水下相机和声纳。实验以橡胶轮胎为检测对象,通过绳索调整其位置,同时采集相机和声纳视频流。在两个真实世界视频上进行测试,该方法分别取得了 77.7% 和 81.6% 的准确率,验证了多模态目标检测模型在传感器视野不匹配情况下的有效性,首次实现了水下目标检测领域多模态传感器的协作检测。
研究人员提出的结合相机和声纳的多模态系统协作检测模型,有效解决了水下目标检测面临的诸多难题。通过准确计算虚拟场景中物体的阴影形态,生成与真实场景相符的物体 - 阴影配对特征,合成接近真实样本的声纳图像并自动标注,为监督学习提供了大量样本。利用水下相机的显著性信息辅助检测,实现了多模态信息的融合。该研究成果不仅在理论上为水下目标检测领域提供了新的思路和方法,而且在实际应用中具有极高的价值,能够广泛应用于海洋资源勘探、水下设施监测、水下考古等多个领域,有力地推动了水下目标检测技术的发展。