
-
生物通官微
陪你抓住生命科技
跳动的脉搏
轻量化三流编解码网络在多模态显著目标检测中的创新应用
【字体: 大 中 小 】 时间:2025年07月07日 来源:Journal of Visual Communication and Image Representation 2.6
编辑推荐:
为解决多模态显著目标检测(SOD)中模型体积大、计算成本高的问题,研究人员提出轻量化三流编解码网络(TENet),通过模态信息引导融合(MIGF)模块和分层解码结构,在VDT-2048数据集上实现37MB模型体积、38FPS推理速度,性能媲美16种前沿方法。
在计算机视觉领域,显著目标检测(Salient Object Detection, SOD)技术通过模拟人类注意力机制,能够快速定位场景中最吸引眼球的物体。这项技术在语义分割、目标跟踪、缺陷检测等任务中扮演着关键角色。然而,传统基于RGB单模态的方法在低光照、透明物体等复杂场景中表现欠佳。虽然引入深度(D)和热成像(T)等多模态数据能显著提升性能,但现有方法普遍存在模型臃肿、多尺度特征融合不足等问题,严重制约了实际应用。
针对这些挑战,研究人员提出了一种创新的轻量化三流编解码网络(TENet)。该研究首先指出当前多模态SOD领域存在的三大痛点:模型体积庞大、多模态特征融合不充分、以及特定信息提取不足。特别值得注意的是,深度图像易受环境噪声干扰,而热成像虽在极端条件下表现稳健,但现有方法未能有效协调三种模态的互补优势。
研究团队设计了三项核心技术突破:首先,采用MobileNetV2作为骨干网络,大幅降低参数量的同时保持特征提取能力;其次,创新性地提出模态信息引导融合(MIGF)模块,通过非参数空间注意力(NSA)机制,以高质量RGB特征为桥梁,有效缩小模态间差异;最后,构建包含双模态解码器和三模态解码器的分层结构,通过上下文增强(CE)模块和语义特征增强(SFE)模块实现多尺度信息融合。
关键技术方法包括:1) 使用VDT-2048数据集(含1048训练和1000测试样本)进行评估;2) 采用重参数化技术压缩模型;3) 设计渐进式模态融合策略避免错误模态污染;4) 通过语义交互(SI)模块强化层级特征互补性。
研究结果部分显示:
结论部分强调,该研究首次实现了多模态SOD在轻量化与高性能的平衡,提出的渐进式融合策略为跨模态学习提供了新思路。实际应用中,该技术可部署于移动设备,在自动驾驶、工业检测等领域具有重要价值。未来研究可进一步探索动态模态加权机制,以应对更复杂的多模态场景。论文发表于《Journal of Visual Communication and Image Representation》。
生物通微信公众号
知名企业招聘