探究S-刺激的再呈现对观察反应的维持作用：对条件性强化的新启示

《Behavioural Processes》：Observing Responses Maintained by Re-Presentations of S-

【字体：大中小】 时间：2026年01月03日 来源：Behavioural Processes 1.5

编辑推荐：

　　本研究针对传统理论中S+（强化信号刺激）通常比S-（非强化信号刺激）更能维持观察反应的观点，通过引入多重刺激产生（MSP）条件，发现鸽子在首次同等频率产生S+和S-后，其S-的再呈现频率显著高于S+。这一反直觉的结果揭示了在特定情境下，S-可通过消除时间不确定性或作为负性强化物等方式维持行为，对经典的延迟减少理论和不确定性减少理论提出了挑战，为理解条件性强化的复杂性提供了新视角。

在行为心理学的工具箱中，"观察反应"是一种巧妙的行为探针，用于探测那些本身不直接产生食物或水等初级强化物，但却能提供信息的刺激——即辨别刺激——是否具有强化行为的力量。自Wyckoff于1952年提出这一概念以来，大量的研究似乎都指向一个明确的结论：信号预示着奖励即将来临的刺激（S+）是良好的条件性强化物，能有效维持观察反应；而信号预示着"此路不通"、没有奖励的刺激（S-）则通常是中性甚至令人厌恶的，无法维持行为。主流的延迟减少理论为这一现象提供了优雅的解释：S+之所以强大，是因为它预示着距离初级强化物的交付时间缩短了。然而，科学探索的道路总是充满意外，一些研究开始报告不一致的结果，暗示S-在某些情况下也可能维持观察行为，这为不确定性减少理论提供了支持，该理论认为减少对未来的不确定性本身就是一种强化。

正是为了厘清S+和S-在维持观察行为中的确切作用，特别是探究在允许刺激被反复呈现的新情境下它们的行为效应，Gerson Yukio Tomanari研究员团队开展了本研究。他们的目标很明确：在Tomanari等人（1998）研究的基础上，创建一个允许刺激在单次试验中被多次产生（再呈现）的实验条件，从而更精细地剖析S+和S-的条件性强化功能。研究论文发表在《Behavioural Processes》上。

为了开展研究，作者主要运用了几个关键技术方法：研究以8只食物剥夺的家鸽为对象，将它们置于斯金纳箱中。实验核心是50秒的离散试验序列，其中一半试验（TS+）最终有反应无关的食物呈现，另一半（TS-）则没有。关键操作是观察反应程序：鸽子啄一个白色按键，可以使其根据试验类型变为红色或绿色（即S+或S-）。研究设置了两种关键条件：单一刺激产生条件（SSP，刺激一旦产生就持续到试验结束）和多重刺激产生条件（MSP，刺激最多呈现10秒，之后白键恢复，允许刺激被再次产生）。行为数据通过记录刺激产生和再呈现的频率进行分析。

结果

1. 首次刺激呈现无偏好

在SSP条件以及MSP条件下的首次刺激呈现中，所有鸽子产生S+和S-的频率基本相等，都接近每个会话16次的最大可能值（即几乎在每个TS+和TS-试验中都至少产生一次相应的刺激）。这表明，在仅能获得一次信息的情况下，鸽子对获取"好消息"（S+）和"坏消息"（S-）表现出同等的动机，支持了辨别刺激的信息功能本身具有强化作用的观点。

2. S-的再呈现频率显著高于S+

这是本研究最核心和反直觉的发现。在MSP条件下，当刺激可以被多次产生时，所有鸽子表现出一个清晰且系统的模式：S-刺激的再呈现频率明显高于S+刺激的再呈现频率。对于五只经验丰富的鸽子（27, 31, 34, 35, 36），S+的再呈现次数在8-16次/会话之间，而S-的再呈现则高达23-25次/会话。另外三只鸽子（37, 63, 64）虽然总体再呈现频率较低，但S-再呈现多于S+的趋势依然存在。这一结果直接挑战了S+是更强条件性强化物的传统观点。

3. 初始观察反应的时间分布相似

对MSP条件下首次刺激产生前的观察反应进行分析发现，在TS+和TS-试验中，观察反应发生的频率和时间分布（以5秒为区间统计）都非常相似。这说明鸽子在试验初期无法区分试验类型，其产生第一个刺激的动机和行为模式在两种试验中是相同的，排除了初始行为差异对后续再呈现结果的解释。

讨论与结论

本研究的主要发现——S-的再呈现频率高于S+——与基于延迟减少理论或不确定性减少理论的预期均不相符。延迟减少理论预期只有S+会被再呈现，因为它信号着接近食物；而不确定性减少理论预期在第一次呈现后不确定性已消除，故不应有再呈现。研究结果对这两种经典理论构成了挑战。

作者提出了几个互补的假说来解释这一令人惊讶的发现。最简明的解释是"竞争性行为"假说：S+不仅是一个条件性强化物，它也是一个引发接近食盒等目标追踪行为的辨别刺激。这些行为与啄键行为在物理上不兼容，从而抑制了TS+试验中的观察反应。而在TS-试验中，没有此类竞争行为，因此观察反应得以自由表达，表现为更高的S-再呈现率。换言之，高的S-反应率可能并非因为S-是强大的积极强化物，而是因为S+的存在间接抑制了行为。

第二个假说赋予S-更积极的作用，认为它可能作为一个"条件性负性强化物"起作用。对于食物剥夺的鸽子，长达60秒的无任何强化机会的试验间期可能具有轻微厌恶性质。S-的呈现确认了试验仍在进行，从而推迟了向这个"超时"期的过渡。因此，产生S-的行为可能通过逃避或延迟厌恶刺激（即ITI）而得到负性强化。

第三个视角是将观察视为一个"广义反应类"。啄白键的所有行为实例（无论最终产生S+还是S-）作为一个整体行为类别，被整个会话中偶尔出现的初级强化物（食物）所维持。S-的高再呈现率可能只是这个被强化的反应类在不受S+引发的竞争行为干扰时的自然表达。

最后，S-的再呈现可能提供了一种"时间信息"功能。每次S-的出现都明确标记了50秒试验仍在继续，尚未进入60秒的ITI。这种对时间进程的确认，对于需要追踪多个时间关联的有机体来说，其本身可能就具有强化价值。

综上所述，这项研究有力地证明，在特定条件下（如允许刺激再呈现），信号强化物缺失的刺激能够比信号强化物出现的刺激维持更高比率的观察行为。这一发现凸显了辨别刺激功能的复杂性及其对实验情境的高度依赖性。它表明，对观察行为以及条件性强化的完整理解，需要超越简单的延迟减少或不确定性减少模型，综合考虑竞争行为、负性强化、广义强化以及信息的时间结构等多重行为过程。这项研究不仅对经典理论提出了重要质疑，也为未来更精细地剖析行为维持的动机机制指明了新的方向。

热点排行

新闻专题