条件化伏隔核多巴胺瞬变可预测个体对药物奖励与自然奖励的偏好及强迫性行为

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Neuroscience》：Conditioned accumbal dopamine transients forecast individual preference for drug versus natural rewards and compulsive behavior

【字体：大中小】 时间：2026年06月27日 来源：Nature Neuroscience 20.3

编辑推荐：

　　成瘾个体倾向于偏好药物奖励而非自然奖励。通常认为，伏隔核中的多巴胺（dopamine，DA）信号失调会触发这一现象，但支持这一观点的证据仍然有限。研究人员利用遗传编码传感器，在小鼠操作性关联任务中监测DA动力学，任务奖励包括自然奖励（高脂溶液）或人工奖励（可卡

成瘾个体倾向于偏好药物奖励而非自然奖励。通常认为，伏隔核中的多巴胺（dopamine，DA）信号失调会触发这一现象，但支持这一观点的证据仍然有限。研究人员利用遗传编码传感器，在小鼠操作性关联任务中监测DA动力学，任务奖励包括自然奖励（高脂溶液）或人工奖励（可卡因或光遗传学DA自我刺激）。在学习过程中，两类奖励的预测性线索均逐渐诱发DA瞬变；在自然奖励递送时，该DA瞬变消失，而在人工奖励递送时则持续存在。在选择测试中，动物的偏好从完全偏向自然奖励到完全偏向人工奖励不等。个体偏好可由线索诱发DA反应的幅度所预测。对奖励关联进行再赋值后，奖励类型偏好及相应DA信号均随之转变；但在表现出强迫性寻药的小鼠中，这种转变并未出现，提示这些小鼠的价值更新受损。上述结果支持这样一种模型：DA驱动适应性奖励寻求，而与线索持续相关的DA信号构成成瘾易感性的基础。

该论文发表于《Nature Neuroscience》，聚焦成瘾研究中的一个核心问题：为何部分个体会在存在自然奖励的情况下，仍持续选择药物等人工奖励（artificial rewards，ARs），甚至发展出不顾不良后果的强迫性使用行为。既往理论认为，中脑-边缘多巴胺（dopamine，DA）系统，尤其是伏隔核（nucleus accumbens，NAc）中的DA释放，是药物“劫持”奖赏系统并抬高药物相关线索价值的关键机制。然而，这一假说长期缺乏对个体层面选择行为的直接证据。另一方面，已有动物研究也显示，并非所有个体都偏好药物，许多个体反而更偏好甜味或高适口性的自然奖励（natural rewards，NRs）。这说明，决定选择偏向的并非奖励的物理属性本身，而更可能是个体赋予不同奖励的主观价值。基于此，研究人员开展了系统研究，检验NAc中条件化DA瞬变是否能够预测个体对NR与AR的偏好，并进一步预测成瘾样强迫行为的发生。

研究人员在DAT-Cre小鼠中结合使用遗传编码DA传感器dLight1.2、光纤光度法（fiber photometry）和操作性自我给药范式，分别比较高脂溶液这一NR与两类AR——光遗传学DA自我刺激（optogenetic dopamine self-stimulation，oDASS）和静脉注射可卡因——在学习、选择、再赋值、惩罚风险及强迫性坚持等情境下的DA动态变化。研究显示，真正能够预测个体后续偏好的，不是奖励递送后的DA幅度，而是预测性线索所诱发的DA瞬变差异。具体而言，若个体对AR相关线索产生更强的DA反应，则更可能偏好AR，并更可能在惩罚条件下持续寻求AR。相反，当奖励价值被重新评估时，多数小鼠的线索DA编码和行为偏好可同步更新；但在强迫性寻求个体中，这种更新能力减弱或缺失。研究因此提出，NAc内由线索诱发的DA价值编码反映主观奖励价值，是成瘾易感性的早期神经标志。

本研究使用的关键技术方法主要包括：在DAT-Cre小鼠腹侧被盖区（ventral tegmental area，VTA）表达Cre依赖型ChrimsonR并在NAc表达dLight1.2，以光纤光度法实时记录DA瞬变；建立NR、高强度或低强度oDASS、不同剂量静脉可卡因的操作性采样与双选任务；结合奖励省略、奖励再赋值、惩罚风险（punishment risk，PR）和渐进比率（progressive ratio）行为程序评估价值更新、偏好稳定性及强迫性；样本来源为8–24周龄DAT-IRES-Cre小鼠，雌雄均纳入，背景为回交至C57BL/6的近似同基因系群体。

在“Operant conditioning for NR and AR builds accumbal DA transients that predict individual preference”部分，研究人员首先建立NR与短程oDASS的平行采样学习任务，并连续记录NAc中的DA信号。结果表明，随着学习推进，NR和AR均在预测性线索处逐渐形成DA瞬变，提示动物已建立线索-奖励关联。对于NR，早期主要出现在奖励递送（reward delivery，Rd）后的DA瞬变随着学习迅速减弱并在熟练阶段消失；而对短程oDASS，奖励递送后的DA信号在熟练阶段仍持续存在。这一结果表明，AR相较NR能够在奖励递送后持续引发DA释放。进一步的双选实验显示，小鼠对NR和AR的偏好具有显著个体差异，可从偏好NR到偏好oDASS连续分布。聚类分析进一步识别出偏好NR、无明显偏好和偏好oDASS三类个体。关键发现是：采样阶段由不同奖励相关线索诱发的DA瞬变差值，与后续选择阶段的个体偏好显著相关，而奖励递送后的DA差异并不相关。这说明个体偏好主要由线索编码的主观价值所预测。

在“Revaluation of AR boosted cue-evoked DA transients and biased preference”部分，研究人员通过将短程oDASS升级为长程oDASS，对AR进行再赋值。结果发现，增强AR强度后，不仅奖励递送后的DA信号明显增大，相关线索诱发的DA瞬变也同步增强；与此同时，很多小鼠的行为偏好由NR转向oDASS。聚类后可见，一部分小鼠始终偏好NR，一部分在再赋值后转向oDASS，另一部分则一直偏好oDASS。不同群体中，线索DA编码的变化方向与偏好转变一致。结果说明，线索诱发DA信号并非固定不变，而会随奖励价值重估而重塑，并直接对应行为选择更新。

在“Extended short-oDASS training failed to enhance value coding or shift preference”部分，研究人员检验如果仅延长对较弱AR的暴露时间，是否会因持续的奖励后DA信号而逐渐抬高线索价值。结果显示，经过超过500次短程oDASS训练后，小鼠对NR与oDASS的偏好总体并未转向AR，线索诱发DA瞬变也基本稳定不变。即使奖励递送后持续存在DA释放，也不足以单独推动线索价值不断攀升。这一结果对“药物通过持续正预测误差（reward prediction error，RPE）无限强化线索价值”的简单模型提出了限制，提示价值编码在学习稳定后具有一定边界。

在“Cocaine yielded strong cue-evoked DA transients that correlate with preference”部分，研究人员将AR扩展为药理学奖励可卡因，以验证上述规律是否同样适用于真实成瘾药物。结果发现，静脉可卡因自给药同样在相关线索处诱发强DA瞬变，并且可卡因输注后DA升高可持续较长时间。个体在NR与可卡因之间同样表现出稳定而明显的偏好差异，分为偏好NR和偏好可卡因两类。与oDASS实验一致，最能预测个体偏好的仍是NR与可卡因相关线索所诱发DA瞬变的差值，而非奖励递送后DA的差值。这说明，无论AR是光遗传刺激还是药理学药物，线索相关DA价值编码都是预测选择行为的核心指标。

在“The oDASS with punishment risk reduces associated cue-evoked DA transients favoring NR preference”部分，研究人员引入足底电击构成的PR，对长程oDASS进行“贬值”。结果显示，在无PR时，所有小鼠普遍偏好长程oDASS，且其相关线索诱发的DA远高于NR；加入PR后，多数小鼠的偏好转向NR，同时oDASS相关线索诱发的DA瞬变减弱，但奖励递送后的DA信号并未改变。聚类分析显示，一部分小鼠会根据PR调整偏好，而另一部分仍持续偏好oDASS。后者的线索DA信号在PR后仍保持较高水平，提示其对负性后果导致的价值更新不敏感。该结果说明，线索DA编码能够反映惩罚引起的价值下降，而不能完成这种更新的个体，可能更接近强迫性成瘾表型。

在“AR preference predicted perseverance to punished oDASS”部分，研究人员进一步评估初始AR偏好与后续强迫性的关系。通过渐进比率任务发现，奖励效能指标断点（breakpoint）与偏好评分并无显著相关，说明偏好并不等同于一般动机强度。随后在惩罚条件下持续进行长程oDASS自我刺激，发现约半数小鼠在PR下仍坚持按压杠杆，被归为坚持者（perseverers）；其余则显著减少反应，被归为放弃者（renouncers）。单纯的NR对AR偏好与坚持程度相关性有限，但当比较“带PR的AR”与NR时，偏好与坚持行为之间出现强相关：在惩罚条件下仍偏好oDASS的小鼠，大多数随后表现为坚持者。说明在负后果存在时仍赋予AR较高价值，是强迫性行为的重要前驱特征。

在“Preference for weak ARs reveals vulnerability to addiction-like behavior”部分，研究人员进一步检验，对较弱AR的初始偏好是否可作为成瘾易感性的早期指标。首先，使用低剂量可卡因（0.75 mg kg^?1）作为较弱AR进行NR对比，发现个体虽未普遍偏好可卡因，但那些对低剂量可卡因不排斥甚至表现出中性偏好的小鼠，后续更可能在oDASS惩罚任务中表现出坚持行为。其次，在另一组实验中，起初偏好短程oDASS的小鼠，在随后面对高剂量可卡因（1.25 mg kg^?1）时，更容易转向并保持对药物奖励的偏好。与此同时，相关线索诱发DA编码也随奖励升级而增强。该部分结果强调，即便是对较弱AR的轻度偏好，也可能揭示个体未来更高的成瘾样行为风险。

讨论部分围绕三个核心观点展开。第一，NAc中由预测性线索诱发的DA瞬变主要编码主观奖励价值，而非奖励客观强度。不同个体之间，尽管AR本身在递送后引发的DA升高较为一致，但线索阶段的DA编码差异很大，而正是这一差异解释了偏好差异。第二，线索DA编码在学习完成后总体稳定，但仍保留对再赋值和惩罚的可塑性；强迫性个体的问题不在于不能产生DA信号，而在于不能根据新后果更新线索所代表的价值。第三，对较弱AR的偏好是从正常奖励选择向成瘾样强迫行为过渡的早期步骤，但并非充分条件；真正进入强迫阶段，还可能需要后续突触可塑性、基因表达改变以及纹状体DA回路由腹侧向背侧的转移。

研究结论可概括为：个体对人工奖励与自然奖励的选择偏好，主要由伏隔核内预测性线索所诱发的DA瞬变差异决定；这种线索相关DA价值编码能够随奖励增强或惩罚风险而更新，但在强迫性寻药个体中更新受损。对较弱人工奖励表现出的偏好，可作为成瘾易感性的早期神经行为标志。该研究由此界定了成瘾脆弱性的早期机制，并为靶向预防与干预策略提供了实验依据。

联系信箱：

粤ICP备09063491号

热点排行