GARE-Net：融合几何上下文聚合与区域上下文增强的图像-文本匹配网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月08日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文推荐一篇突破性研究：作者团队提出GARE-Net网络，通过几何上下文特征聚合（GCFA）模块生成视觉区域空间几何信息，结合区域上下文特征增强（RCFE）模块的图卷积技术，创新性解决跨模态交互中空间位置信息缺失难题。实验在Flickr30K和MSCOCO数据集验证了该模型在图像-文本匹配中的优越性，为多模态语义对齐提供新范式。

Highlight

本研究提出GARE-Net网络，其核心创新在于：

1.
几何上下文特征聚合（GCFA）模块
通过区域-块注意力机制生成包含几何上下文的区域位置特征，将空间坐标信息（如x/y轴中心点、宽度高度）转化为高维嵌入，与视觉特征融合形成增强表示，解决传统注意力机制忽略空间语义的问题。
2.
区域上下文特征增强（RCFE）模块
构建全连接区域关系图，利用图卷积网络（GCN）捕获对象级交互。该模块通过邻域聚合策略动态更新节点特征，使每个区域同时编码自身几何属性与周边区域上下文，实现"位置-语义"双重增强。

实验验证

在Flickr30K和MSCOCO数据集上，GARE-Net的R@1指标分别提升3.2%和2.8%。可视化案例显示，模型能准确区分"猫趴在沙发"与"猫站立注视沙发"等依赖空间关系的语义场景。

Conclusion

GARE-Net通过GCFA和RCFE的协同作用，首次实现几何信息与区域上下文的联合建模，为跨模态理解提供新思路。未来将探索三维空间编码在医疗影像-报告匹配中的应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号