
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于跨模态特征融合的多图互学习网络在视频显著目标检测中的应用研究
【字体: 大 中 小 】 时间:2025年07月22日 来源:Digital Signal Processing 2.9
编辑推荐:
推荐:针对视频显著目标检测(VSOD)中时空跨模态特征融合不足及显著结构信息捕获不佳的问题,研究人员提出融合交叉注意力模块(CAM)和多尺度特征融合模块(MFFM)的多图互学习网络(MGMLN)。该网络通过图神经网络(GNNs)增强目标结构完整性,在4个标准数据集上超越21种先进模型,为复杂动态场景下的智能视频分析提供新方案。
在智能视频分析领域,如何精准捕捉动态场景中最具视觉吸引力的目标一直是核心挑战。现有视频显著目标检测(VSOD)方法面临两大瓶颈:一是时空跨模态特征融合不充分,当背景存在非显著运动物体或前景目标快速变化时性能骤降;二是卷积神经网络(CNNs)固有的下采样操作导致目标边缘模糊和结构信息丢失。这些问题严重制约了视频理解、压缩等下游任务的效果。
针对这些难题,中国国内研究机构的研究人员创新性地提出多图互学习网络(MGMLN)。该网络通过交叉注意力模块(CAM)实现时空特征双向交互,利用多尺度特征融合模块(MFFM)整合不同层级特征,并首创多关系动态注意力图卷积(MDAGC)挖掘图节点深层信息。在DAVIS等4个标准数据集测试中,该方法较21种先进模型展现出更优的显著目标捕获能力和细节连贯性,相关成果发表于《Digital Signal Processing》。
关键技术包括:1)采用FlowNet2.0提取光学流构建双流输入;2)通过CAM实现RGB与运动特征的双向引导;3)设计五层编解码结构融合MFFM输出;4)构建包含空间图/运动图节点的MGMLN网络,结合GIM模块实现图节点交互。
研究结果显示:在特征提取阶段,CAM通过通道/空间双重注意力机制,使运动特征对空间特征的引导误差降低23.6%。MFFM通过金字塔池化模块(PP
生物通微信公众号
知名企业招聘