水下多模态目标跟踪的协同增强与高维融合方法研究

《Ocean Engineering》:United-modality underwater object tracking via distinct enhancing and high-dimensional fusion

【字体: 时间:2025年10月26日 来源:Ocean Engineering 5.5

编辑推荐:

  本刊编辑推荐:针对水下复杂环境中可见光与声呐(RGBS)图像空间未对齐、模态退化差异大导致的跟踪难题,云南大学研究团队提出统一模态水下目标跟踪方法U2WTrack。通过差异化图像增强(DIE)策略分别优化可见光与声呐图像质量,构建高维重映射融合(HDRF)空间实现未对齐特征融合,结合双模态预测重映射(DM-PR)机制实现跨模态误差校正。在RGBS50数据集上的实验表明,该方法在遮挡、低光照等挑战性场景下均取得最优性能,为水下无人平台环境感知提供了创新解决方案。

  
海洋覆盖了地球71%的表面积,是人类活动拓展的必然领域。然而,高压、缺氧、低能见度等极端自然条件限制了人类对水下环境的直接探索,使得无人水下航行器(UUV)成为水下探测的重要工具。视觉目标跟踪(VOT)技术作为UUV环境感知、目标跟踪/检测和路径规划的核心组成部分,在复杂水下环境中面临着严峻挑战。特殊的水下环境会导致色彩失真、能见度受限和动态光照条件,使得基于露天场景的现有VOT方法难以直接应用。
尽管已有研究尝试通过运动后处理、多特征提取等策略提升水下目标跟踪(UOT)性能,但可见光传感器的成像原理仍因水下散射光而限制感知范围。与此同时,前视声呐作为关键设备,能够在低照度和低能见度水下环境中提供大范围感知能力,但缺乏可见光传感器提供的颜色和纹理等细节信息。如何有效联合可见光与声呐(RGBS)传感器的优势特性,成为提升水下目标跟踪性能的自然选择。
然而,RGBS图像的融合面临两大核心难题:一是可见光与声呐图像因物理特性差异需要不同的增强策略;二是与严格空间对齐的RGBT/RGBD图像不同,RGBS图像的成像方向几乎垂直,导致空间未对齐问题。针对这些挑战,云南大学研究团队在《Ocean Engineering》上发表了题为"United-modality underwater object tracking via distinct enhancing and high-dimensional fusion"的研究论文,提出了统一模态水下跟踪方法U2WTrack。
该方法通过三个核心技术模块实现性能突破:差异化图像增强(DIE)策略根据可见光和声呐图像的不同物理退化模型分别进行增强处理;高维重映射融合(HDRF)构建统一表征空间实现未对齐RGBS特征融合;双模态预测重映射(DM-PR)机制通过坐标重映射和误差校正提升跟踪鲁棒性。研究采用RGBS50数据集进行验证,该数据集是目前唯一的RGBS跟踪基准,包含遮挡、低光照等9个挑战性属性。
关键技术方法
研究采用基于Visual Transformer(ViT)的主干网络,模板和搜索区域被划分为小块并沿通道维度拼接。差异化增强策略从第二个ViT块开始增强RGBS特征,高维融合模块通过构建高维空间投影实现特征对齐,双模态预测头分别生成可见光和声呐图像的边界框,并通过历史记录的平均仿射矩阵实现坐标重映射。损失函数结合了GIoU、L1和focal损失。
差异化图像增强策略
研究团队发现,可见光图像主要受光散射影响,表现为色彩失真和目标模糊;而声呐图像则受多径干扰影响,导致位置偏移和虚假目标。针对可见光图像,UIE模块采用色散补偿分支(DCB)和色彩偏差补偿分支(C3B),基于水下成像物理模型进行恢复。DCB通过低秩近似学习逆补偿矩阵,C3B在频域对衰减进行补偿。对于声呐图像,SIE模块结合多径抑制(MPS)和时移补偿(TSC),通过可学习投影矩阵消除多径干扰,并利用回声功率增强(EPE)模块提升信噪比。特征可视化显示,增强后的特征更集中于真实目标区域,有效抑制了非目标区域的高响应。
高维重映射融合机制
为解决RGBS图像空间未对齐问题,HDRF构建高维空间将可见光和声呐特征投影到统一表征系统。具体通过可见光模态注意力(V-Attn)和声呐模态注意力(S-Attn)模块分别处理搜索区域和模板特征,利用位置编码嵌入空间信息。高维融合阶段通过矩阵乘法将两个模态的特征组合成高维投影空间,再通过高维卷积进行融合优化。该设计使模型能够在不依赖严格空间对齐的情况下,挖掘RGBS特征的互补特性。
双模态预测与重映射
DM-PR模块配置两个预测头分别生成可见光和声呐图像的边界框。核心创新在于双模态约束重映射(DMCR)策略,通过边界框门控、分数门控和重映射矩阵计算(RMC)实现跨模态误差校正。RMC利用历史记录的平均仿射矩阵实现可见光与声呐坐标之间的双向映射,当某一模态跟踪失败时,可通过另一模态的跟踪结果进行校正。这种机制显著提升了在单模态失效场景下的跟踪鲁棒性。
实验验证结果
在RGBS50数据集上的综合评估表明,U2WTrack在可见光模态的成功率(SR)、精确率(PR)和归一化精确率(NPR)分别达到75.5%、80.3%和81.2%,在声呐模态达到55.5%、77.1%和68.7%,均显著优于现有最佳方法。在属性级评估中,U2WTrack在声呐模态的遮挡、形变等五个挑战性属性上取得最优成绩,展示了强大的环境适应性。可视化结果进一步证实,在目标移动至图像边缘、回声干扰等复杂场景下,U2WTrack均能保持稳定跟踪,而对比方法出现跟踪漂移或目标丢失。
模块有效性验证
消融实验系统验证了各模块的贡献。高维融合模块的移除导致性能下降1.7-3.6%,表明其对特征对齐的关键作用。差异化增强策略的缺失使性能降低1.5-3.6%,证明模态特定增强的必要性。配置位置实验显示,当前选择的ViT-2位置是最优设置。双模态映射机制的消融验证了双向校正的重要性,特别是声呐到可见光映射对性能提升贡献显著。
研究结论与展望
该研究提出的U2WTrack方法通过物理模型驱动的图像增强、高维空间的特征融合和双模态协同校正,有效解决了水下RGBS目标跟踪的核心挑战。实验证明该方法在多种复杂水下场景下均能保持鲁棒性能,为水下无人平台的自主感知提供了可靠技术支撑。然而,在极端稀疏声呐反射或高动态环境下,方法的时序一致性仍有提升空间。未来工作将引入时序建模和多帧特征融合,进一步提升复杂水下环境中的性能表现。这项研究不仅推动了水下目标跟踪技术的发展,也为多模态传感器融合提供了新的思路和方法论参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号