基于混合关系建模的抽象视觉推理增强方法研究

【字体: 时间:2025年07月28日 来源:Displays 3.7

编辑推荐:

  为解决卷积神经网络(CNNs)在抽象视觉推理任务中关系建模能力不足的问题,研究人员提出了一种混合关系网络模块ICRN,通过同时增强图像内(Intra)和图像间(Cross)的关系建模能力,显著提升了RAVEN、I-RAVEN和PGM数据集上的推理性能,平均准确率最高提升3.49%,为人工智能的抽象推理能力发展提供了新思路。

  

抽象视觉推理是人类流体智力的核心体现,也是人工智能领域长期面临的挑战。近年来,尽管卷积神经网络(CNNs)在视觉任务中表现卓越,但在瑞文渐进矩阵(RPM)等抽象推理测试中仍存在明显瓶颈——现有模型难以同时精准识别单幅图像的符号化内容(如形状、位置关系)和跨图像的抽象规则(如递变、置换逻辑)。这一缺陷源于传统方法往往孤立处理图像内(intra-image)对象关系或图像间(cross-image)规则关联,导致模型在复杂推理任务中频频"卡壳"。

针对这一关键问题,研究人员创新性地提出了混合关系网络模块ICRN(Intra and Cross Relation Network)。该模块通过图神经网络(GNN)架构,首次实现了单幅图像内像素级对象关系与跨图像抽象规则的双向协同建模。其中,Intra模块将图像的行/列/通道视为图节点,利用注意力机制构建自适应非线性长程依赖关系;Cross模块则通过动态边缘权重学习上下文与选项面板间的推理规则。这种"由内而外"的混合建模策略,使模型既能像人类一样敏锐捕捉图像细节,又能连贯推演抽象规律。

研究采用了多数据集(RAVEN、I-RAVEN、PGM)和多架构(ResNet18、LSTM、WNet等)验证策略。关键技术包括:1)基于图注意力网络(GAT)的动态关系建模;2)行/列/通道多维度图节点构建;3)端到端的混合关系学习框架。在I-RAVEN数据集上,嵌入ICRN的模型平均准确率提升3.49%,显著超越现有最佳方法。

Intra Relation Network设计
通过将图像特征图的每个行列通道转化为图节点,利用可学习的注意力权重构建动态邻接矩阵,有效解决了传统相似度度量导致的边缘权重固化问题。实验表明该模块使单图像符号识别准确率提升21.7%。

Cross Relation Network实现
将RPM测试中的上下文面板与选项面板分别建模为图节点,通过多头注意力机制学习面板间的隐含规则映射。在PGM数据集上,该模块使规则推理准确率提升至89.3%。

混合架构优势
相比单独使用Intra或Cross模块的基线模型,ICRN的协同作用使RAVEN数据集整体准确率提升12.8%,证明双向关系建模对复杂推理任务具有显著增益效应。

这项发表于《Displays》的研究具有双重突破意义:方法论上,ICRN首次实现了抽象视觉推理中多层次关系的统一建模;应用层面,其模块化设计可无缝嵌入主流CNNs,为医疗影像分析、自动驾驶等需要高阶推理的领域提供了通用增强方案。作者Jinlin Guo等特别指出,该技术未来可扩展至三维医学图像分割等更复杂的时空推理场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号