基于层次特征集成与融合的遥感视觉问答系统创新研究

【字体: 时间:2025年06月12日 来源:Displays 3.7

编辑推荐:

  为解决遥感影像中多粒度特征融合不足、跨模态对齐不准确等问题,研究人员提出层次特征集成与融合框架(HFIF),通过多粒度关联增强(MGCE)、尺度感知空洞特征增强(SA-DFE)和跨模态语义调制(CMSM)机制,显著提升遥感视觉问答(RSVQA)性能,实验证明其优于现有方法,推动遥感智能解译发展。

  

研究背景
遥感技术已广泛应用于农业、环境评估和交通规划等领域,但影像解译需专业知识,限制了其普适性。视觉问答(VQA)技术通过结合图像与自然语言处理,为用户提供直观的交互方式。然而,遥感影像与自然图像存在显著差异:覆盖范围广、分辨率差异大、地物类型复杂,导致传统VQA方法难以捕捉多尺度特征和语义关联。现有研究面临三大挑战:单一感受野难以适配多样化问题、语义上下文缺失、跨模态特征融合不充分。

研究方法与技术
研究提出层次特征集成与融合框架(HFIF),包含多粒度关联增强(MGCE)、尺度感知空洞特征增强(SA-DFE)和跨模态语义调制(CMSM)三大模块。MGCE通过全局-局部信息多层次建模实现深度特征融合;SA-DFE利用不同膨胀率的卷积核组合提取多尺度空间特征;CMSM基于问题语义动态调整视觉-文本特征权重。实验在RSVQA-LR和RSVQA-HR数据集上进行,采用准确率等指标评估性能。

研究结果

  1. 多粒度关联增强(MGCE):通过构建全局语义与局部细节的关联模型,文本特征表征能力提升,解决单一粒度融合局限。
  2. 尺度感知空洞特征增强(SA-DFE):多尺度空洞卷积显著增强复杂场景感知,计数类问题准确率提高12.3%。
  3. 跨模态语义调制(CMSM):动态反馈机制使跨模态对齐误差降低18.7%,优于传统静态融合方法。

结论与意义
HFIF框架通过层次化特征集成与动态融合机制,解决了遥感VQA中的多尺度感知、语义对齐等核心问题。其创新性体现在:首次引入问题驱动的调控策略,增强多模态交互灵活性;MGCE与SA-DFE协同提升多粒度特征提取能力;CMSM机制为跨模态研究提供新思路。实验表明,HFIF在RSVQA-LR数据集上准确率达86.5%,较基线模型提升9.2%。该研究为遥感智能解译提供了可解释性强、适应性广的解决方案,推动遥感技术向智能化、平民化发展。

讨论
尽管HFIF表现优异,仍存在对象尺度模糊(如小目标识别误差)和复杂场景理解局限等问题。未来可结合注意力机制优化多尺度特征权重分配,或引入外部知识库增强语义推理。该成果发表于《Displays》,为遥感与人工智能交叉领域研究树立了新标杆。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号