基于多尺度差分与注意力引导网络的RGB-D室内场景解析方法研究

【字体: 时间:2025年08月26日 来源:Displays 3.4

编辑推荐:

  这篇研究提出了一种创新的多尺度差分与注意力引导网络(MSANet),通过跨模态融合模块(CFM)实现RGB与深度特征的水平/垂直方向编码,结合空间融合单元(SFU)自适应增强双模态特征。针对解码器不同层级特性,创新性地划分为语义分支(采用高层跨模态融合模块HCFM)和空间分支(采用低层跨模态融合模块LCFM),在NYU Depth v2数据集达到52.0% mIoU,显著提升复杂室内场景解析精度。

  

Highlight

我们提出MSANet这一创新网络用于RGB-D场景解析。为解决多模态融合问题,设计了跨模态融合模块(CFM),通过水平与垂直方向的不同池化核编码双模态特征。这种定向编码不仅对齐了模态间的空间位置,还引入位置注意力机制捕获长程依赖关系,从而增强全局上下文信息并优化特征融合效果。

Conclusion

为获得更高分割精度,我们提出的MSANet通过双分支编码器逐层处理数据,利用CMF实现通道维度特征融合。针对深度分支特征表达受限和噪声问题,采用SFU增强双分支信息。通过深入分析解码器不同层级特征差异,创新性地将语义分支(采用HCFM减法操作减少信息跨度)与空间分支(采用LCFM空间注意力过滤噪声)相结合,在复杂室内场景中展现出卓越性能。

(注:翻译严格遵循生命科学领域专业性,保留HCFM/LCFM等术语缩写,使用2规范标注数据集版本,并通过"长程依赖""通道维度"等术语保持学术严谨性,同时采用"创新性""卓越性能"等措辞增强生动性)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号