《Chinese Journal of Electronics》:An Extensible Hierarchical Multimodal Semantic Segmentation Network for Underwater Scenarios
编辑推荐:
为解决水下图像语义分割中因成像质量差导致的信息冗余和高级语义缺失问题,研究人员开展了可扩展分层多模态语义分割网络(E-HMSNet)研究。通过设计跨模态掩码互补(CMC)策略和跨层语义补充(CSS)模块,在PST900和UWS数据集上mIoU分别提升2.87%和2.78%,显著提升了水下场景的语义分割适应性和准确性。
在深邃的海洋中,光学成像常常因光线衰减和水体浑浊而失真,传统的水下图像语义分割方法难以准确识别目标。更棘手的是,复杂的水下生物和植被会带来大量冗余信息,而多模态融合过程中又容易丢失关键语义细节,导致分割边界模糊。这些挑战使得水下机器人勘探、海洋资源管理等应用面临严重的技术瓶颈。
为了突破这些限制,哈尔滨工程大学的研究团队在《Chinese Journal of Electronics》上发表了一项创新研究,提出了一种面向水下场景的可扩展分层多模态语义分割网络(E-HMSNet)。该研究首次将多模态语义分割任务扩展至水下环境,通过模拟声学-光学图像对构建数据集,并设计了双管齐下的技术方案:一方面利用跨模态掩码互补策略消除信息冗余,另一方面通过跨层语义补充模块修复特征损失。
关键技术方法包括:1)基于双分支ResNet-152的层级特征提取框架,分别处理声学与光学模态;2)跨模态掩码互补(CMC)策略,通过对互补区域的掩码重建模态关联;3)跨层语义补充(CSS)模块,通过特征校正和交叉注意力机制增强层间特征关联;4)针对不同层级特征设计的差异化融合模块(图2所示),包括使用空洞卷积的低级特征融合、结合空间与通道注意力的中级特征融合,以及采用共注意力机制的高级特征融合。
层级框架设计
研究团队构建了包含三个特征层级的分割框架:Level I捕获低层结构信息,Level II融合语义与空间信息,Level III提取高层细节特征。每个层级配备专属融合模块,如Level I采用多头空洞卷积(Multi-head Dilated Convolutions)处理高维特征,Level III通过共注意力机制(Co-attention)精确建模像素级跨模态关联。
跨模态掩码互补策略
受掩码自编码器(MAE)启发,CMC策略对两种模态分别进行互补性随机掩码(图3)。当光学图像保留25%可见块时,声学图像则掩码对应区域,强制模型学习模态间的互补关系。实验表明20%-24%的掩码比例最优,既能减少冗余又不丢失关键信息。
跨层语义补充机制
CSS模块被嵌入Level II与Level III之间,通过特征校正(Feature Correction)和交叉注意力融合(Cross-attention Fusion)补偿局部语义损失。该设计显著缓解了深层网络中的特征偏移问题,使模型在保持训练效率的同时提升边界细节捕捉能力。
在公开数据集PST900上的实验显示,E-HMSNet的mIoU和mAcc分别达到81.50%和88.43%,较次优模型提升2.87%和1.79%。在水下模拟数据集UWS(基于SUIM数据集通过CycleGAN生成声学-光学图像对)上,其mIoU(66.08%)和mAcc(75.16%)分别领先基线方法3.98%和2.78%。尤其值得注意的是,该方法在水下场景的性能衰减幅度(13%)远低于其他多模态模型(约20%),证明其更强的环境适应性。
模块迁移实验进一步验证了CMC和CSS的普适性:当嵌入FEANet等基准模型时,mIoU平均提升2.3个百分点。消融实验(图4、5)表明,单独使用CMC可加速模型收敛(减少约40轮训练),而结合CSS后能在轻微牺牲效率(1-2轮)的前提下最大化分割精度。
这项研究的重要意义在于首次系统解决了水下多模态语义分割的核心痛点。通过模拟数据构建和算法创新,E-HMSNet为水下勘探、海洋生态监测等任务提供了更可靠的视觉感知方案。研究团队已开源代码与数据,为后续研究奠定基础。未来随着水下硬件技术的发展,该方法有望在真实跨模态数据集和更复杂场景(如红外小目标分割)中发挥更大价值。