编辑推荐:
目前视觉推理计算模型与非视觉推理模型分离,Soar 等认知架构视觉推理能力不足。研究人员扩展 Soar 认知架构,构建视觉推理系统 SVS 2。实验表明其有助于视觉 - 符号融合,为相关研究提供框架。
在认知科学的奇妙世界里,我们常常会遇到一些有趣的挑战。比如,当你在脑海中想象 “wow” 这个单词,然后把它旋转 180 度,接着思考与之相关的语义问题时,这看似简单的过程,却蕴含着巨大的科学难题。一直以来,视觉推理的计算模型和非视觉推理模型就像两条平行的轨道,互不相交。那些专门用于视觉推理的模型,像解决瑞文渐进矩阵(Raven’s progressive matrices,RPMs)这类任务的模型,虽然在纯视觉推理方面表现出色,但它们缺乏与通用高级推理系统的连接,一旦遇到需要综合视觉和非视觉知识进行审慎推理的任务,就会束手无策。而像 Soar、ACT - R 这些经过大量研究且较为成熟的认知架构,却在视觉推理能力上存在短板,要么能力有限,要么干脆没有。这种视觉推理与通用推理之间的鸿沟,从 1997 年到 2018 年一直被认知架构领域的学者们关注,却始终未能得到有效解决。
为了攻克这一难题,国外的研究人员把目光投向了 Soar 认知架构。Soar 认知架构拥有 40 多年的研究历史,在众多认知架构中脱颖而出,它具备强大的记忆、知识表示以及推理和学习能力,已经在各种任务和环境中展现出了适用性。并且,此前已经有将视觉和空间推理融入 Soar 系统的研究,为新的探索奠定了基础。此次研究人员的目标是,通过为 Soar 认知架构添加低级视觉记忆和推理过程,构建一个紧密结合视觉和通用推理的系统,探索在以符号和规则为主的架构中融入多层次视觉知识表示的方法,这一研究成果发表在了《Cognitive Systems Research》上。
研究人员在研究过程中,主要采用了架构扩展和实验验证的方法。他们对原有的空间 - 视觉系统(Spatial - Visual System,SVS)进行扩展,构建了 SVS 2。SVS 2 将视觉部分重新组织成了一个三方结构,把视觉缓冲区拆分成视觉感觉记忆(visual sensory memory,VSM)和视觉工作记忆(visual working memory,VWM),同时添加了视觉长期记忆(visual long - term memory,VLTM)。为了验证 SVS 2 的有效性,研究人员选择了视觉字符域(visual character domain,VCD)这一简单的问题领域进行实验。
下面来看具体的研究结果:
- SVS 2 的架构设计:SVS 2 对 SVS 进行了创新性扩展,重新规划视觉部分结构。在这个新架构里,不同的视觉记忆系统各司其职又相互协作,知识可以在这些系统间自由传递,为后续的视觉 - 符号融合推理提供了基础架构支持。
- 实验验证:研究人员利用 VCD 开展实验。结果显示,通过 SVS 2 增强后的 Soar 系统,能够完成类似 “wow” 示例中的视觉 - 符号融合推理任务。这表明 SVS 2 在推动 Soar 系统朝着填补视觉推理与通用推理之间的差距、实现全面的视觉 - 符号融合认知架构的方向上,迈出了坚实的一步。
在研究结论和讨论部分,SVS 2 的出现无疑是令人振奋的。它为 Soar 认知架构实现视觉 - 符号融合带来了新的希望,提供了一个通用框架,这一框架甚至可能被应用到其他认知架构中。在人工智能研究领域,让现实世界中的智能体充分利用视觉和符号知识及推理能力,一直是重要的研究方向,而认知架构则是实现这一目标的有力工具。SVS 2 的成功探索,不仅丰富了 Soar 认知架构的功能,更为未来相关研究开辟了新的道路,激励着更多科研人员在这个充满挑战与机遇的领域继续前行。