模仿类似人类的自适应视觉机制,以实现高效且灵活的机器视觉感知

《Nature Machine Intelligence》:Emulating human-like adaptive vision for efficient and flexible machine visual perception

【字体: 时间:2025年11月08日 来源:Nature Machine Intelligence 23.9

编辑推荐:

  自适应视觉模型通过序列决策降低计算成本并增强可解释性,在17项基准测试中实现28倍推理成本缩减,灵活适应资源预算且接近人类视觉行为。

  

摘要

人类视觉具有高度的适应性,能够通过依次聚焦于与任务相关的区域来高效地感知复杂的环境。相比之下,现有的机器视觉模型则是被动地一次性处理整个场景,这导致资源需求随着空间-时间输入分辨率和模型规模的增加而急剧上升,从而对未来的发展及实际应用造成了严重限制。在这里,我们提出了AdaptiveNN这一通用框架,旨在实现从“被动”视觉模型向“主动且适应性强”的视觉模型的转变。AdaptiveNN将视觉感知视为一个从粗略到精细的序列决策过程,逐步识别并关注与任务相关的区域,并在多次注视之间逐步整合信息;当收集到足够的信息时,模型会主动完成观察任务。我们建立了一种理论,将表示学习与自我奖励的强化学习相结合,使得AdaptiveNN能够在无需额外指导注视位置的情况下实现端到端的训练。我们在17个涵盖9项任务的基准测试中对AdaptiveNN进行了评估,这些任务包括大规模视觉识别、细粒度区分、视觉搜索、处理真实驾驶和医疗场景中的图像、语言驱动的人工智能系统,以及与人类的对比实验。AdaptiveNN在保持高准确性的同时,将推理成本降低了多达28倍;它能够灵活适应不同的任务需求和资源限制而无需重新训练,并通过其注视模式提高了模型的可解释性,为高效、灵活且可解释的计算机视觉技术开辟了一条有前景的方向。此外,在许多情况下,AdaptiveNN的表现与人类视觉行为高度相似,这表明它作为研究视觉认知的宝贵工具具有巨大潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号