基于层次特征集成与融合的遥感视觉问答系统创新研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月12日 来源：Displays 3.7

编辑推荐：

　　为解决遥感影像中多粒度特征融合不足、跨模态对齐不准确等问题，研究人员提出层次特征集成与融合框架（HFIF），通过多粒度关联增强（MGCE）、尺度感知空洞特征增强（SA-DFE）和跨模态语义调制（CMSM）机制，显著提升遥感视觉问答（RSVQA）性能，实验证明其优于现有方法，推动遥感智能解译发展。

研究背景
遥感技术已广泛应用于农业、环境评估和交通规划等领域，但影像解译需专业知识，限制了其普适性。视觉问答（VQA）技术通过结合图像与自然语言处理，为用户提供直观的交互方式。然而，遥感影像与自然图像存在显著差异：覆盖范围广、分辨率差异大、地物类型复杂，导致传统VQA方法难以捕捉多尺度特征和语义关联。现有研究面临三大挑战：单一感受野难以适配多样化问题、语义上下文缺失、跨模态特征融合不充分。

研究方法与技术
研究提出层次特征集成与融合框架（HFIF），包含多粒度关联增强（MGCE）、尺度感知空洞特征增强（SA-DFE）和跨模态语义调制（CMSM）三大模块。MGCE通过全局-局部信息多层次建模实现深度特征融合；SA-DFE利用不同膨胀率的卷积核组合提取多尺度空间特征；CMSM基于问题语义动态调整视觉-文本特征权重。实验在RSVQA-LR和RSVQA-HR数据集上进行，采用准确率等指标评估性能。

研究结果

多粒度关联增强（MGCE）：通过构建全局语义与局部细节的关联模型，文本特征表征能力提升，解决单一粒度融合局限。
尺度感知空洞特征增强（SA-DFE）：多尺度空洞卷积显著增强复杂场景感知，计数类问题准确率提高12.3%。
跨模态语义调制（CMSM）：动态反馈机制使跨模态对齐误差降低18.7%，优于传统静态融合方法。

结论与意义
HFIF框架通过层次化特征集成与动态融合机制，解决了遥感VQA中的多尺度感知、语义对齐等核心问题。其创新性体现在：首次引入问题驱动的调控策略，增强多模态交互灵活性；MGCE与SA-DFE协同提升多粒度特征提取能力；CMSM机制为跨模态研究提供新思路。实验表明，HFIF在RSVQA-LR数据集上准确率达86.5%，较基线模型提升9.2%。该研究为遥感智能解译提供了可解释性强、适应性广的解决方案，推动遥感技术向智能化、平民化发展。

讨论
尽管HFIF表现优异，仍存在对象尺度模糊（如小目标识别误差）和复杂场景理解局限等问题。未来可结合注意力机制优化多尺度特征权重分配，或引入外部知识库增强语义推理。该成果发表于《Displays》，为遥感与人工智能交叉领域研究树立了新标杆。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号