
-
生物通官微
陪你抓住生命科技
跳动的脉搏
智能电网中虚假数据注入攻击的多级小波时空图嵌入智能定位方法
【字体: 大 中 小 】 时间:2025年09月08日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出GARE-Net(Geometric contextual Aggregation and Regional contextual Enhancement Network)创新框架,通过几何上下文特征聚合(GCFA)模块和区域上下文特征增强(RCFE)模块,解决图像-文本匹配中空间位置信息缺失问题。GCFA创新性地生成视觉区域的空间几何特征,RCFE通过图卷积增强区域上下文表征,在Flickr30K和MSCOCO数据集上验证了方法的优越性。
亮点
• 提出融合几何感知与图推理的GARE-Net框架,包含GCFA和RCFE两大创新模块
• GCFA首创区域块注意力机制,生成包含空间几何信息的上下文位置特征
• RCFE构建全连接区域图,通过图卷积实现高级语义推理
方法学
如图2所示,GARE-Net包含三个核心组件:1)视觉/文本编码器(3.1节)建立基础表征;2)GCFA模块(3.2节)通过区域块注意力生成空间几何特征,将位置坐标(x,y,w,h)转化为高维嵌入,与视觉特征融合;3)RCFE模块(3.3节)构建区域关系图,通过图卷积聚合邻域特征,使每个区域同时编码"位置-内容-上下文"三重信息。匹配阶段采用硬分配交叉注意力机制(3.4节),通过三重损失优化模型。
数据集与评估指标
在Flickr30K(31,000图像/155,000文本)和MSCOCO(123,287图像/616,435文本)数据集上,采用Recall@K和mR指标评估。标准划分遵循Karpathy split,比较基线包括SCAN、CHAN等SOTA方法。
结论
GARE-Net通过GCFA的空间几何聚合和RCFE的图推理增强,显著提升跨模态匹配性能。可视化案例证实,模型能准确捕捉"猫趴在沙发"vs"猫站立注视沙发"等依赖空间关系的语义差异,为智能医疗影像标注等应用提供新思路。
未引用声明
缺失图6引用。
作者声明
钟方明:概念设计/方法论/初稿撰写;周涛:数据/算法/初稿;陈志奎:可视化/验证/监督;张素华:可视化/验证/监督。
利益冲突声明
作者声明无已知利益冲突。
生物通微信公众号
知名企业招聘