
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类泛化能力的统一原则:从规则到相似性的认知整合及其在强化学习与结构学习中的应用
【字体: 大 中 小 】 时间:2025年08月13日 来源:Annual Review of Psychology 29.4
编辑推荐:
这篇开创性综述系统梳理了人类泛化(generalization)认知机制的百年研究历程,提出基于贝叶斯原则的混合模型(hybrid models)成功整合了规则(rule-based)与相似性(similarity-based)两大传统范式。文章创新性地将概念学习(concept learning)与函数学习(function learning)的理论框架延伸至强化学习(RL)和潜在结构学习(structure induction)领域,揭示了高斯过程回归(Gaussian Process regression)与后继表征(Successor Representation)在价值泛化中的核心作用,为理解人类在开放环境中的适应性学习提供了统一计算框架。
泛化认知的演化轨迹
人类智能的核心特征在于将有限经验泛化至新情境的能力。从Shepard提出的心理空间距离定律到Tenenbaum的贝叶斯概念学习,泛化研究经历了从对立到融合的范式转变。规则机制通过明确假设环境结构(如分类边界或函数关系)实现快速知识迁移,而相似性机制则依赖实例比较提供计算简便性。现代混合模型通过贝叶斯原则将两者优势结合,在保持规则精确性的同时获得相似性的灵活性。
概念学习的双重机制
在离散刺激分类领域,规则理论假设概念由明确边界定义(如"三明治是两片面包夹食物"),而相似性理论通过心理空间中的距离度量(如RBF核函数)实现泛化。贝叶斯概念学习通过假设空间采样,用规模原则(size principle)偏好与数据一致的最窄假设,既产生规则式的分类边界又复现相似性梯度。这种对偶性在程序归纳和因果学习等领域展现出强大解释力。
函数学习的统一框架
连续输入-输出关系的泛化研究揭示了平行的发展路径。早期线性规则模型虽能解释系统外推但缺乏灵活性,神经网络虽擅长内插却难以捕捉人类外推偏差。高斯过程回归通过核函数定义相似性度量,其线性核与周期核的组合使用既实现函数组合又保留不确定性估计。值得注意的是,Mercer定理揭示每个核都可分解为规则式基函数,实现相似性与规则的数学统一。
强化学习中的价值泛化
在结构化奖励环境中,高斯过程上置信界(GP-UCB)模型成功预测人类探索-利用权衡行为。该模型将空间相关性编码为RBF核,通过贝叶斯更新同时计算期望奖励m(x)和不确定性v(x),其中长度尺度λ控制泛化范围。发展研究表明,人类学习策略的优化轨迹呈现"冷却"模式——儿童期广泛随机探索(高τ值)逐渐收敛为成人期精确的基于不确定性的探索(高β值)。
结构学习的互补范式
认知地图理论通过后继表征(SR)将值函数分解为状态相似性矩阵M(x,x′)与奖励r(x′)的乘积,体现环境动态的相似性编码。而贝叶斯结构归纳则通过假设图结构(如动物分类树)生成核函数,用高斯过程模拟数据评估假设可能性。两者分别从相似性和规则角度解决结构学习问题:SR通过关联学习缓慢构建相似性表示,而结构归纳能快速推断新结构但依赖采样近似。
未来方向与挑战
前沿研究提出将结构学习与函数学习整合的框架:用规则假设生成图结构,通过图核实现相似性计算,再以高斯过程进行预测和假设评估。与情景强化学习(episodic RL)的联系表明,人类可能通过记忆限制下的相似性加权实现近似贝叶斯推断。开放性问题包括:高维特征选择机制、社会学习中的规则传递,以及在抽象推理语料库(ARC)等复杂任务中的泛化表现。
这项研究的重要意义在于,它首次在计算层面统一了心理学各分支领域的泛化理论,为理解人类适应性智能提供了数学基础。从儿童认知发展到人工智能系统设计,这些发现正在重塑我们对学习本质的认识。正如文末指出,未来泛化研究需要更关注社会文化情境,这可能是人类区别于其他智能体的关键所在。
生物通微信公众号
知名企业招聘