模仿类似人类的自适应视觉机制，以实现高效且灵活的机器视觉感知

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Machine Intelligence》：Emulating human-like adaptive vision for efficient and flexible machine visual perception

【字体：大中小】 时间：2025年11月08日 来源：Nature Machine Intelligence 23.9

编辑推荐：

　　自适应视觉模型通过序列决策降低计算成本并增强可解释性，在17项基准测试中实现28倍推理成本缩减，灵活适应资源预算且接近人类视觉行为。

摘要

人类视觉具有高度的适应性，能够通过依次聚焦于与任务相关的区域来高效地感知复杂的环境。相比之下，现有的机器视觉模型则是被动地一次性处理整个场景，这导致资源需求随着空间-时间输入分辨率和模型规模的增加而急剧上升，从而对未来的发展及实际应用造成了严重限制。在这里，我们提出了AdaptiveNN这一通用框架，旨在实现从“被动”视觉模型向“主动且适应性强”的视觉模型的转变。AdaptiveNN将视觉感知视为一个从粗略到精细的序列决策过程，逐步识别并关注与任务相关的区域，并在多次注视之间逐步整合信息；当收集到足够的信息时，模型会主动完成观察任务。我们建立了一种理论，将表示学习与自我奖励的强化学习相结合，使得AdaptiveNN能够在无需额外指导注视位置的情况下实现端到端的训练。我们在17个涵盖9项任务的基准测试中对AdaptiveNN进行了评估，这些任务包括大规模视觉识别、细粒度区分、视觉搜索、处理真实驾驶和医疗场景中的图像、语言驱动的人工智能系统，以及与人类的对比实验。AdaptiveNN在保持高准确性的同时，将推理成本降低了多达28倍；它能够灵活适应不同的任务需求和资源限制而无需重新训练，并通过其注视模式提高了模型的可解释性，为高效、灵活且可解释的计算机视觉技术开辟了一条有前景的方向。此外，在许多情况下，AdaptiveNN的表现与人类视觉行为高度相似，这表明它作为研究视觉认知的宝贵工具具有巨大潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号