基于阶段融合Transformer的光场显著性检测方法研究

【字体: 时间:2025年07月31日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  针对光场数据中多模态信息融合不充分的问题,研究人员提出阶段融合Transformer(SF-Transformer),通过Focal Stack Transformer(FST)建模空间-堆栈关联性,结合阶段深度融合(SDF)实现全聚焦图像(AiF)与焦堆栈(FS)的多层次交互,显著提升复杂场景下的显著性检测性能,在DUT-LFSD等数据集上超越现有方法。

  

在计算机视觉领域,光场数据因其包含全聚焦图像(AiF)和焦堆栈(FS)的多视角信息,为复杂场景下的显著性检测(SOD)提供了新思路。然而,现有方法多局限于解码阶段的晚期融合,未能充分挖掘多模态数据的互补性,且焦堆栈的序列长度不固定导致传统3D卷积应用受限。针对这些问题,江西财经大学的研究团队在《Pattern Recognition Letters》发表论文,提出阶段融合Transformer(SF-Transformer),通过创新性架构设计实现从编码到解码的全流程信息融合。

研究采用三大关键技术:1)双分支Transformer分别提取AiF和FS特征;2)焦堆栈Transformer(FST)通过空间-堆栈注意力机制建模长程依赖,克服序列长度限制;3)阶段深度融合(SDF)模块利用跨模态注意力在每层编码阶段交互优化特征。实验基于DUT-LFSD、HFUT-LFSD和LFSD三大数据集,样本量分别达1,462、255和100例。

网络架构
SF-Transformer通过FST将焦堆栈视为空间-堆栈联合序列,采用因子化自注意力高效建模局部与全局关联。SDF模块则通过互交叉注意力实现AiF与FS特征的逐层互补,例如利用AiF的空间细节修正FS的模糊区域。

实验结果
在遮挡场景和小目标检测中,该方法较传统两流网络(如Concatenation或ConvLSTM方案)显著提升边界精度。定量分析显示,在DUT-LFSD数据集上Fβ指标提升5.2%,验证了早期跨模态融合的有效性。

结论与意义
该研究首次将Transformer引入光场SOD领域,提出的FST解决了变长焦堆栈建模难题,SDF机制为多模态学习提供了新范式。其技术路线可扩展至医疗影像分析等需要多源数据融合的场景,为动态视觉理解任务开辟了新方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号