《Nature Neuroscience》:Conditioned accumbal dopamine transients forecast individual preference for drug versus natural rewards and compulsive behavior
编辑推荐:
成瘾个体倾向于偏好药物奖励而非自然奖励。通常认为,伏隔核中的多巴胺(dopamine,DA)信号失调会触发这一现象,但支持这一观点的证据仍然有限。研究人员利用遗传编码传感器,在小鼠操作性关联任务中监测DA动力学,任务奖励包括自然奖励(高脂溶液)或人工奖励(可卡
成瘾个体倾向于偏好药物奖励而非自然奖励。通常认为,伏隔核中的多巴胺(dopamine,DA)信号失调会触发这一现象,但支持这一观点的证据仍然有限。研究人员利用遗传编码传感器,在小鼠操作性关联任务中监测DA动力学,任务奖励包括自然奖励(高脂溶液)或人工奖励(可卡因或光遗传学DA自我刺激)。在学习过程中,两类奖励的预测性线索均逐渐诱发DA瞬变;在自然奖励递送时,该DA瞬变消失,而在人工奖励递送时则持续存在。在选择测试中,动物的偏好从完全偏向自然奖励到完全偏向人工奖励不等。个体偏好可由线索诱发DA反应的幅度所预测。对奖励关联进行再赋值后,奖励类型偏好及相应DA信号均随之转变;但在表现出强迫性寻药的小鼠中,这种转变并未出现,提示这些小鼠的价值更新受损。上述结果支持这样一种模型:DA驱动适应性奖励寻求,而与线索持续相关的DA信号构成成瘾易感性的基础。
该论文发表于《Nature Neuroscience》,聚焦成瘾研究中的一个核心问题:为何部分个体会在存在自然奖励的情况下,仍持续选择药物等人工奖励(artificial rewards,ARs),甚至发展出不顾不良后果的强迫性使用行为。既往理论认为,中脑-边缘多巴胺(dopamine,DA)系统,尤其是伏隔核(nucleus accumbens,NAc)中的DA释放,是药物“劫持”奖赏系统并抬高药物相关线索价值的关键机制。然而,这一假说长期缺乏对个体层面选择行为的直接证据。另一方面,已有动物研究也显示,并非所有个体都偏好药物,许多个体反而更偏好甜味或高适口性的自然奖励(natural rewards,NRs)。这说明,决定选择偏向的并非奖励的物理属性本身,而更可能是个体赋予不同奖励的主观价值。基于此,研究人员开展了系统研究,检验NAc中条件化DA瞬变是否能够预测个体对NR与AR的偏好,并进一步预测成瘾样强迫行为的发生。
研究人员在DAT-Cre小鼠中结合使用遗传编码DA传感器dLight1.2、光纤光度法(fiber photometry)和操作性自我给药范式,分别比较高脂溶液这一NR与两类AR——光遗传学DA自我刺激(optogenetic dopamine self-stimulation,oDASS)和静脉注射可卡因——在学习、选择、再赋值、惩罚风险及强迫性坚持等情境下的DA动态变化。研究显示,真正能够预测个体后续偏好的,不是奖励递送后的DA幅度,而是预测性线索所诱发的DA瞬变差异。具体而言,若个体对AR相关线索产生更强的DA反应,则更可能偏好AR,并更可能在惩罚条件下持续寻求AR。相反,当奖励价值被重新评估时,多数小鼠的线索DA编码和行为偏好可同步更新;但在强迫性寻求个体中,这种更新能力减弱或缺失。研究因此提出,NAc内由线索诱发的DA价值编码反映主观奖励价值,是成瘾易感性的早期神经标志。
本研究使用的关键技术方法主要包括:在DAT-Cre小鼠腹侧被盖区(ventral tegmental area,VTA)表达Cre依赖型ChrimsonR并在NAc表达dLight1.2,以光纤光度法实时记录DA瞬变;建立NR、高强度或低强度oDASS、不同剂量静脉可卡因的操作性采样与双选任务;结合奖励省略、奖励再赋值、惩罚风险(punishment risk,PR)和渐进比率(progressive ratio)行为程序评估价值更新、偏好稳定性及强迫性;样本来源为8–24周龄DAT-IRES-Cre小鼠,雌雄均纳入,背景为回交至C57BL/6的近似同基因系群体。
在“Operant conditioning for NR and AR builds accumbal DA transients that predict individual preference”部分,研究人员首先建立NR与短程oDASS的平行采样学习任务,并连续记录NAc中的DA信号。结果表明,随着学习推进,NR和AR均在预测性线索处逐渐形成DA瞬变,提示动物已建立线索-奖励关联。对于NR,早期主要出现在奖励递送(reward delivery,Rd)后的DA瞬变随着学习迅速减弱并在熟练阶段消失;而对短程oDASS,奖励递送后的DA信号在熟练阶段仍持续存在。这一结果表明,AR相较NR能够在奖励递送后持续引发DA释放。进一步的双选实验显示,小鼠对NR和AR的偏好具有显著个体差异,可从偏好NR到偏好oDASS连续分布。聚类分析进一步识别出偏好NR、无明显偏好和偏好oDASS三类个体。关键发现是:采样阶段由不同奖励相关线索诱发的DA瞬变差值,与后续选择阶段的个体偏好显著相关,而奖励递送后的DA差异并不相关。这说明个体偏好主要由线索编码的主观价值所预测。
在“Revaluation of AR boosted cue-evoked DA transients and biased preference”部分,研究人员通过将短程oDASS升级为长程oDASS,对AR进行再赋值。结果发现,增强AR强度后,不仅奖励递送后的DA信号明显增大,相关线索诱发的DA瞬变也同步增强;与此同时,很多小鼠的行为偏好由NR转向oDASS。聚类后可见,一部分小鼠始终偏好NR,一部分在再赋值后转向oDASS,另一部分则一直偏好oDASS。不同群体中,线索DA编码的变化方向与偏好转变一致。结果说明,线索诱发DA信号并非固定不变,而会随奖励价值重估而重塑,并直接对应行为选择更新。
在“Extended short-oDASS training failed to enhance value coding or shift preference”部分,研究人员检验如果仅延长对较弱AR的暴露时间,是否会因持续的奖励后DA信号而逐渐抬高线索价值。结果显示,经过超过500次短程oDASS训练后,小鼠对NR与oDASS的偏好总体并未转向AR,线索诱发DA瞬变也基本稳定不变。即使奖励递送后持续存在DA释放,也不足以单独推动线索价值不断攀升。这一结果对“药物通过持续正预测误差(reward prediction error,RPE)无限强化线索价值”的简单模型提出了限制,提示价值编码在学习稳定后具有一定边界。
在“Cocaine yielded strong cue-evoked DA transients that correlate with preference”部分,研究人员将AR扩展为药理学奖励可卡因,以验证上述规律是否同样适用于真实成瘾药物。结果发现,静脉可卡因自给药同样在相关线索处诱发强DA瞬变,并且可卡因输注后DA升高可持续较长时间。个体在NR与可卡因之间同样表现出稳定而明显的偏好差异,分为偏好NR和偏好可卡因两类。与oDASS实验一致,最能预测个体偏好的仍是NR与可卡因相关线索所诱发DA瞬变的差值,而非奖励递送后DA的差值。这说明,无论AR是光遗传刺激还是药理学药物,线索相关DA价值编码都是预测选择行为的核心指标。
在“The oDASS with punishment risk reduces associated cue-evoked DA transients favoring NR preference”部分,研究人员引入足底电击构成的PR,对长程oDASS进行“贬值”。结果显示,在无PR时,所有小鼠普遍偏好长程oDASS,且其相关线索诱发的DA远高于NR;加入PR后,多数小鼠的偏好转向NR,同时oDASS相关线索诱发的DA瞬变减弱,但奖励递送后的DA信号并未改变。聚类分析显示,一部分小鼠会根据PR调整偏好,而另一部分仍持续偏好oDASS。后者的线索DA信号在PR后仍保持较高水平,提示其对负性后果导致的价值更新不敏感。该结果说明,线索DA编码能够反映惩罚引起的价值下降,而不能完成这种更新的个体,可能更接近强迫性成瘾表型。
在“AR preference predicted perseverance to punished oDASS”部分,研究人员进一步评估初始AR偏好与后续强迫性的关系。通过渐进比率任务发现,奖励效能指标断点(breakpoint)与偏好评分并无显著相关,说明偏好并不等同于一般动机强度。随后在惩罚条件下持续进行长程oDASS自我刺激,发现约半数小鼠在PR下仍坚持按压杠杆,被归为坚持者(perseverers);其余则显著减少反应,被归为放弃者(renouncers)。单纯的NR对AR偏好与坚持程度相关性有限,但当比较“带PR的AR”与NR时,偏好与坚持行为之间出现强相关:在惩罚条件下仍偏好oDASS的小鼠,大多数随后表现为坚持者。说明在负后果存在时仍赋予AR较高价值,是强迫性行为的重要前驱特征。
在“Preference for weak ARs reveals vulnerability to addiction-like behavior”部分,研究人员进一步检验,对较弱AR的初始偏好是否可作为成瘾易感性的早期指标。首先,使用低剂量可卡因(0.75 mg kg
?1)作为较弱AR进行NR对比,发现个体虽未普遍偏好可卡因,但那些对低剂量可卡因不排斥甚至表现出中性偏好的小鼠,后续更可能在oDASS惩罚任务中表现出坚持行为。其次,在另一组实验中,起初偏好短程oDASS的小鼠,在随后面对高剂量可卡因(1.25 mg kg
?1)时,更容易转向并保持对药物奖励的偏好。与此同时,相关线索诱发DA编码也随奖励升级而增强。该部分结果强调,即便是对较弱AR的轻度偏好,也可能揭示个体未来更高的成瘾样行为风险。
讨论部分围绕三个核心观点展开。第一,NAc中由预测性线索诱发的DA瞬变主要编码主观奖励价值,而非奖励客观强度。不同个体之间,尽管AR本身在递送后引发的DA升高较为一致,但线索阶段的DA编码差异很大,而正是这一差异解释了偏好差异。第二,线索DA编码在学习完成后总体稳定,但仍保留对再赋值和惩罚的可塑性;强迫性个体的问题不在于不能产生DA信号,而在于不能根据新后果更新线索所代表的价值。第三,对较弱AR的偏好是从正常奖励选择向成瘾样强迫行为过渡的早期步骤,但并非充分条件;真正进入强迫阶段,还可能需要后续突触可塑性、基因表达改变以及纹状体DA回路由腹侧向背侧的转移。
研究结论可概括为:个体对人工奖励与自然奖励的选择偏好,主要由伏隔核内预测性线索所诱发的DA瞬变差异决定;这种线索相关DA价值编码能够随奖励增强或惩罚风险而更新,但在强迫性寻药个体中更新受损。对较弱人工奖励表现出的偏好,可作为成瘾易感性的早期神经行为标志。该研究由此界定了成瘾脆弱性的早期机制,并为靶向预防与干预策略提供了实验依据。