
-
生物通官微
陪你抓住生命科技
跳动的脉搏
模仿类似人类的自适应视觉机制,以实现高效且灵活的机器视觉感知
《Nature Machine Intelligence》:Emulating human-like adaptive vision for efficient and flexible machine visual perception
【字体: 大 中 小 】 时间:2025年11月08日 来源:Nature Machine Intelligence 23.9
编辑推荐:
自适应视觉模型通过序列决策降低计算成本并增强可解释性,在17项基准测试中实现28倍推理成本缩减,灵活适应资源预算且接近人类视觉行为。
人类视觉具有高度的适应性,能够通过依次聚焦于与任务相关的区域来高效地感知复杂的环境。相比之下,现有的机器视觉模型则是被动地一次性处理整个场景,这导致资源需求随着空间-时间输入分辨率和模型规模的增加而急剧上升,从而对未来的发展及实际应用造成了严重限制。在这里,我们提出了AdaptiveNN这一通用框架,旨在实现从“被动”视觉模型向“主动且适应性强”的视觉模型的转变。AdaptiveNN将视觉感知视为一个从粗略到精细的序列决策过程,逐步识别并关注与任务相关的区域,并在多次注视之间逐步整合信息;当收集到足够的信息时,模型会主动完成观察任务。我们建立了一种理论,将表示学习与自我奖励的强化学习相结合,使得AdaptiveNN能够在无需额外指导注视位置的情况下实现端到端的训练。我们在17个涵盖9项任务的基准测试中对AdaptiveNN进行了评估,这些任务包括大规模视觉识别、细粒度区分、视觉搜索、处理真实驾驶和医疗场景中的图像、语言驱动的人工智能系统,以及与人类的对比实验。AdaptiveNN在保持高准确性的同时,将推理成本降低了多达28倍;它能够灵活适应不同的任务需求和资源限制而无需重新训练,并通过其注视模式提高了模型的可解释性,为高效、灵活且可解释的计算机视觉技术开辟了一条有前景的方向。此外,在许多情况下,AdaptiveNN的表现与人类视觉行为高度相似,这表明它作为研究视觉认知的宝贵工具具有巨大潜力。