基于层次语义的多尺度关联网络,用于无对齐的红绿蓝颜色和热敏显著物体检测
《Engineering Applications of Artificial Intelligence》:Hierarchical semantics guided multi-scale correlation network for alignment-free red-green-blue and thermal salient object detection
【字体:
大
中
小
】
时间:2025年09月27日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
RGBT显著目标检测方法通过自适应多层级语义融合和跨模态多尺度相关性学习解决未对齐数据的空间不一致问题。中文摘要:本文提出HSMNet,一种针对未对齐RGBT图像的显著目标检测方法,通过自适应多层级语义融合模块HSFM和捕捉跨模态相关性的多尺度不对称相关模块MACM,有效处理未对齐数据的空间不一致问题,实验表明其性能优于现有方法。
RGBT(红、绿、蓝和热)显著目标检测(SOD)是一种通过融合可见光(RGB)和热红外(TIR)模态之间的互补信息,识别并突出图像中最引人注目的目标的技术。这种技术在24小时不间断的智能监控和城市安全与交通管理中尤为重要,尤其是在低光照或恶劣天气条件下,传统的单模态检测方法往往难以提供足够的精度和鲁棒性。RGBT SOD不仅能够有效应对光照变化和环境干扰,还能增强目标定位的稳定性,从而为智能城市的安全系统提供可靠的支持。
随着计算机视觉技术的不断发展,SOD已经成为许多下游任务的基础,例如图像分割、视频监控、目标跟踪和图像检索等。在可见光模态中,SOD技术已经取得了显著进展,但这些方法在低光照环境下仍然存在局限性。为了克服这一问题,近年来的研究逐渐引入热红外模态,以利用其独立于可见光的热辐射特征,从而提升目标检测在黑暗、浓雾等复杂环境中的鲁棒性。因此,RGBT SOD作为一种多模态融合方法,正在成为智能监控和城市安全领域的重要研究方向。
然而,当前大多数RGBT SOD方法仍然依赖于人工对齐的数据集,这些数据集通常经过预处理,以确保RGB和TIR图像在空间和尺寸上的一致性。这种依赖性导致了一个关键问题:模型在人工对齐的数据集上训练后,往往难以泛化到实际场景中,因为现实世界中的多模态图像可能由于视角、分辨率或传感器特性不同而出现未对齐的情况。此外,人工对齐数据集的使用也限制了方法的可扩展性,并增加了实际部署的复杂性,因为对齐大规模多模态数据通常需要大量时间和人力。在面对未对齐数据集时,现有方法的性能会显著下降,最终影响检测的准确性。
为了应对这些挑战,我们提出了一种新的基于层次语义引导的多尺度相关网络(HSMNet),用于无对齐的RGBT显著目标检测。HSMNet由两个关键模块组成:层次语义融合模块(HSFM)和多尺度非对称相关模块(MACM)。这两个模块协同工作,使得模型能够在不依赖人工对齐的情况下实现鲁棒的目标检测。HSFM通过自适应融合多层次特征,解决了现有方法在语义引导方面的不足,而MACM则通过多尺度非对称窗口策略,增强了跨模态相关性的学习能力,特别是在空间未对齐的情况下。
HSFM的设计初衷是提升多模态之间的相关性。传统的语义引导方法通常依赖于单一层次的高阶特征,忽略了多层次语义特征在复杂场景中的不同贡献。为了克服这一问题,HSFM引入了自适应融合机制,能够根据场景需求动态分配不同层次特征的权重。这种机制不仅增强了模型在多模态数据融合中的灵活性,还提升了目标定位的准确性。HSFM处理来自RGB图像和TIR图像的三个层次特征,分别通过平均池化、最大池化和展平操作生成紧凑的特征表示。随后,这些表示被连接起来,并通过一个带有softmax函数的多层感知机(MLP)计算路由概率,从而为不同层次的特征分配不同的权重。通过这种方式,HSFM能够捕捉每个语义层次的内在贡献,并优先选择与目标定位最相关的特征,从而提高检测的鲁棒性和整体性能。
MACM的设计则是为了应对RGB和热红外模态之间的空间未对齐问题。传统方法在面对空间不一致时,往往无法有效捕捉跨模态的相关性,特别是在不同尺度和位置变化的情况下。为了解决这一问题,MACM采用了多尺度非对称窗口策略,将特征图划分为不同大小的窗口对,从而同时捕捉细粒度的局部细节和粗粒度的上下文结构。此外,MACM还整合了HSFM提供的语义引导信息,以优化跨模态相关性,并抑制由于空间未对齐导致的背景噪声。通过在分割后的特征上执行相关操作,并进一步利用级联可变形卷积增强这些特征,MACM构建了一个全面的多尺度表示,从而提升了目标检测在空间未对齐场景中的准确性和鲁棒性。
本研究的主要贡献包括以下几个方面:首先,我们提出了HSMNet这一新型网络架构,用于无对齐的RGBT显著目标检测,该方法通过层次语义引导和多尺度相关学习,在未对齐的显著区域中有效捕捉跨模态的相关性。其次,我们设计了HSFM,通过自适应融合多层次特征,提升了语义引导的可靠性。第三,我们引入了MACM,利用多尺度非对称窗口策略,增强了跨模态相关学习在现实未对齐场景中的适应能力。最后,我们在多个基准数据集上进行了广泛的实验,结果表明我们的方法在未对齐和弱对齐的RGBT显著目标检测任务中均优于现有方法,达到了当前最先进的水平。
在实验部分,我们评估了HSMNet在不同类型的RGBT数据集上的表现,包括完全对齐、弱对齐和未对齐的数据集。这些数据集均来自公开资源,相关引用提供了详细的访问信息。其中,完全对齐的数据集指的是两个模态之间的图像对精确对齐,以确保像素级别的匹配。弱对齐的数据集则包含略有空间偏差的图像对,如小范围的平移或旋转。未对齐的数据集则由不同视角、分辨率或传感器特性的图像组成,这些图像之间缺乏精确的对齐信息。通过在这些数据集上进行测试,我们能够全面评估HSMNet在不同对齐条件下的性能表现。
实验结果表明,HSMNet在未对齐和弱对齐的RGBT显著目标检测任务中均取得了优异的性能。在未对齐数据集上,HSMNet相比其他方法具有更高的准确率和更强的鲁棒性,能够有效应对空间不一致带来的挑战。而在弱对齐数据集上,HSMNet同样表现出色,证明了其在不同对齐条件下的适应能力。此外,HSMNet在处理复杂场景时,也展现了良好的泛化能力,能够处理不同尺度、位置和光照条件下的目标检测任务。
为了进一步验证HSMNet的有效性,我们还分析了其在不同任务中的应用潜力。例如,在智能城市的安全监控系统中,HSMNet能够帮助识别潜在威胁,如异常行为或未授权访问。在交通管理中,HSMNet可以用于检测道路上的显著目标,如行人、车辆或交通标志,从而提升交通监控的准确性和实时性。此外,在视频分析和目标跟踪任务中,HSMNet的多尺度相关机制能够有效处理不同尺度的目标,提升跟踪的稳定性。这些应用表明,HSMNet不仅具有理论上的创新性,还具备实际应用的广泛前景。
在方法设计上,我们特别关注了如何在不依赖人工对齐的情况下实现跨模态的相关性学习。传统的RGBT SOD方法通常采用固定大小的窗口来提取跨模态的互补信息,但这种方法在面对空间不一致时往往效果不佳。相比之下,HSMNet的MACM通过多尺度非对称窗口策略,能够适应不同尺度和位置的目标,从而提升检测的准确性。此外,HSFM的层次语义融合机制能够有效捕捉不同层次特征的内在贡献,使得模型在面对复杂场景时能够做出更准确的判断。
在实际部署过程中,HSMNet的无对齐特性使其能够适应各种实际场景,而无需依赖人工对齐的预处理步骤。这不仅降低了部署成本,还提高了系统的实时性和可扩展性。此外,HSMNet的模块化设计使得其能够灵活适应不同的任务需求,例如在需要更高精度的场景中,可以增强HSFM的层次语义融合能力;而在需要更强鲁棒性的场景中,可以加强MACM的多尺度相关学习能力。这种灵活性使得HSMNet能够更好地满足不同应用场景的需求。
在实验中,我们还对HSMNet的性能进行了对比分析,结果显示其在多个基准数据集上的表现优于现有的RGBT SOD方法。这表明HSMNet在提升跨模态相关性学习和语义引导能力方面具有显著优势。此外,HSMNet在面对未对齐数据时,能够有效抑制背景噪声,从而提高目标检测的准确性。这些实验结果进一步验证了HSMNet在实际应用中的有效性。
为了确保HSMNet的鲁棒性和泛化能力,我们还对其在不同光照条件和环境干扰下的表现进行了测试。在低光照条件下,HSMNet能够利用热红外模态的热辐射特征,有效提升目标检测的准确性。而在恶劣天气条件下,HSMNet的多尺度相关机制能够适应不同尺度和位置的变化,从而保持检测的稳定性。这些测试结果表明,HSMNet不仅能够处理未对齐的多模态数据,还能在复杂环境中保持较高的检测性能。
此外,HSMNet的模块化设计使其能够方便地进行扩展和优化。例如,在需要更高精度的场景中,可以增加HSFM的层次语义融合层数;而在需要更强鲁棒性的场景中,可以扩展MACM的多尺度窗口数量。这种灵活性使得HSMNet能够更好地适应不同应用场景的需求,并在实际部署中保持较高的性能。同时,HSMNet的无对齐特性也使其能够处理大规模的多模态数据,而无需进行复杂的预处理步骤,从而提高了系统的可扩展性和部署效率。
在实际应用中,HSMNet的性能表现得到了验证。例如,在智能监控系统中,HSMNet能够准确识别并定位目标,从而提高监控的效率和准确性。在交通管理中,HSMNet可以用于检测道路上的显著目标,如行人、车辆或交通标志,从而提升交通监控的智能化水平。在目标跟踪任务中,HSMNet的多尺度相关机制能够有效处理不同尺度的目标,提高跟踪的稳定性。在图像检索任务中,HSMNet能够利用跨模态的相关性,提高检索的准确性和效率。这些应用表明,HSMNet不仅具有理论上的创新性,还具备实际应用的广泛的潜力。
综上所述,HSMNet通过引入层次语义融合机制和多尺度非对称相关策略,有效解决了现有RGBT SOD方法在处理未对齐多模态数据时的局限性。实验结果表明,HSMNet在未对齐和弱对齐的RGBT显著目标检测任务中均优于现有方法,达到了当前最先进的水平。此外,HSMNet的无对齐特性使其能够适应各种实际场景,而无需依赖人工对齐的预处理步骤,从而提高了系统的可扩展性和部署效率。未来,我们计划进一步优化HSMNet的性能,并探索其在更多实际应用场景中的潜力,以推动RGBT SOD技术的发展和应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号