
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次特征集成与融合的遥感视觉问答系统创新研究
【字体: 大 中 小 】 时间:2025年06月12日 来源:Displays 3.7
编辑推荐:
为解决遥感影像中多粒度特征融合不足、跨模态对齐不准确等问题,研究人员提出层次特征集成与融合框架(HFIF),通过多粒度关联增强(MGCE)、尺度感知空洞特征增强(SA-DFE)和跨模态语义调制(CMSM)机制,显著提升遥感视觉问答(RSVQA)性能,实验证明其优于现有方法,推动遥感智能解译发展。
研究背景
遥感技术已广泛应用于农业、环境评估和交通规划等领域,但影像解译需专业知识,限制了其普适性。视觉问答(VQA)技术通过结合图像与自然语言处理,为用户提供直观的交互方式。然而,遥感影像与自然图像存在显著差异:覆盖范围广、分辨率差异大、地物类型复杂,导致传统VQA方法难以捕捉多尺度特征和语义关联。现有研究面临三大挑战:单一感受野难以适配多样化问题、语义上下文缺失、跨模态特征融合不充分。
研究方法与技术
研究提出层次特征集成与融合框架(HFIF),包含多粒度关联增强(MGCE)、尺度感知空洞特征增强(SA-DFE)和跨模态语义调制(CMSM)三大模块。MGCE通过全局-局部信息多层次建模实现深度特征融合;SA-DFE利用不同膨胀率的卷积核组合提取多尺度空间特征;CMSM基于问题语义动态调整视觉-文本特征权重。实验在RSVQA-LR和RSVQA-HR数据集上进行,采用准确率等指标评估性能。
研究结果
结论与意义
HFIF框架通过层次化特征集成与动态融合机制,解决了遥感VQA中的多尺度感知、语义对齐等核心问题。其创新性体现在:首次引入问题驱动的调控策略,增强多模态交互灵活性;MGCE与SA-DFE协同提升多粒度特征提取能力;CMSM机制为跨模态研究提供新思路。实验表明,HFIF在RSVQA-LR数据集上准确率达86.5%,较基线模型提升9.2%。该研究为遥感智能解译提供了可解释性强、适应性广的解决方案,推动遥感技术向智能化、平民化发展。
讨论
尽管HFIF表现优异,仍存在对象尺度模糊(如小目标识别误差)和复杂场景理解局限等问题。未来可结合注意力机制优化多尺度特征权重分配,或引入外部知识库增强语义推理。该成果发表于《Displays》,为遥感与人工智能交叉领域研究树立了新标杆。
生物通微信公众号
知名企业招聘