论文上线截图

生存依赖于动物寻求奖励和预测它们的环境线索的能力。从昆虫到灵长类动物,已发现神经递质多巴胺(DA)和血清素(5-HT)在巴甫洛夫(即线索-结果)学习过程中扮演关键角色,通过信号奖励的存在(无条件刺激;US)或预测奖励的线索(条件刺激;CS),并被认为是形成CS-US联想的基础的可塑性机制。但DA和5-HT相互作用如何促成新联想的形成仍不清楚。

历史上,关于DA和5-HT在联想学习中作用的两种相互矛盾的假设一直存在争议。然而,迄今为止,直接测试关于DA和5-HT相互作用的想法因难以同时精确操纵多个神经调节系统而受到阻碍。

在这里,作者建立了一个小鼠模型,能够同时遗传性地接触大脑的DA和5-HT神经元。顺行追踪揭示了伏隔核(NAc)是DA和5-HT信号汇聚整合的潜在热点。同时记录DA和5-HT轴突活动,以及基因编码的DA和5-HT传感器记录,揭示了奖励增加了NAc中的DA信号并减少了5-HT信号。光遗传学抑制DA或5-HT奖励反应分别在食欲条件任务中产生了适度的行为缺陷,而同时减弱两种信号则严重破坏了学习和强化。光遗传学复现DA和5-HT奖励反应足以驱动新联想的获得,并比单独的任何操作都更有效地支持强化。综上所述,这些结果表明,纹状体DA和5-HT信号通过施加强化的对手控制来塑造学习。

1同时访问DA和5-HT回路

首先,作者建立了一个小鼠模型(图1a),实现对DA和5-HT神经元的正交遗传性访问。为了评估这个小鼠品系的细胞类型特异性,作者通过病毒注射分析了DA和5-HT细胞标记物的免疫染色之间的共定位,验证了作者遗传靶向策略的特异性(图1b-i)。并确认了DAT-Cre+/-;SERT-Flp+/-小鼠能够同时、正交地遗传性访问中脑DA和5-HT系统。

图1. 将DA和5-HT输入映射到参与学习的边缘结构

2. 寻找DA和5-HT的交汇点

接下来,作者通过顺行轴突追踪识别VTADA和DR5HT输入在对联想学习重要的边缘结构中的汇聚热点。用mCherry标记VTADA神经元,用EYFP标记DR5HT神经元,它们和轴突之间的共定位在前额皮质区域最低,而在伏隔核后内侧壳(NAcpmSh)中最高(图1j-k)。逆行追踪证实,DA输入到NAcpmSh来自与伏隔核核心(NAccore)和外侧壳(NAclatSh)投射亚群不同的内侧VTADA神经元。DR5HT输入到NAcpmSh集中在DR的背内侧部分(图1l-m)。基于这些数据,作者专注于NAcpmSh作为在奖励学习期间整合汇聚DA和5-HT信号的最佳区域

图1. 将DA和5-HT输入映射到参与学习的边缘结构

3. DA和5-HT在学习过程中的动态变化

接下来,作者探讨了VTADA和DR5HT神经元的纹状体输入在食欲条件任务中的反应。作者在VTADA神经元中表达红色钙指示剂RCaMP2,在DR5HT神经元中表达绿色钙指示剂GCaMP6m(图2a)。当小鼠学习新的线索-奖励关联时,可以同时记录VTADA和DR5HT轴突在NAcpmSh中的活动(图2b-c)。小鼠成功地习得了CS-US关联(图2d),并发现VTADA和DR5HT输入到NAcpmSh都没有对奖励预测线索产生强烈的反应(图2e-g),表明这个纹状体亚区由缺乏奖励预测误差反应特征的DA神经元支配。相比之下,神经调节输入到NAcpmSh显示出强烈的US反应,VTADA轴突在训练后期的奖励消费期间兴奋,而DR5HT轴突则受到抑制(图2h-j)。

鉴于VTADA轴突反应在小鼠进入奖励端口之前就开始了,那么奖励接近期间的DA释放是否可能驱动了在奖励消费期间观察到的DR5HT轴突的抑制反应。结果发现,NAcpmSh中的DR5HT轴突不仅仅是对VTADA信号作出反应,而是以与纹状体DA输入相反的方式独立编码奖励消费。

为了直接测试VTADA和DR5HT轴突中的相反活性轮廓是否如预期那样驱动DA和5-HT释放的相应变化,作者将携带基因编码传感器GRAB-DA或GRAB-5HT的病毒载体注入小鼠的NAcpmSh,并在小鼠消费随机提供的奖励时进行光度测量记录(图2n-p)。作者的轴突和GRAB传感器记录实验表明,在奖励消费期间,纹状体接收到截然不同的、相反的DA和5-HT反应,并且这些反应在NAcpmSh中汇聚

                                  图2. 收敛DA和5-HT输入NAcpmSh对奖励表现出相反的反应

4. 学习需要对立的DA和5-HT

为了测试在食欲学习中相反的VTADA和DR5HT奖励反应之间的因果关系,作者接下来进行了一个功能丧失实验,通过光遗传学单独减弱DA或5-HT奖励信号,或同时减弱两者。作者能够在食欲巴甫洛夫条件任务中,精确地使用长脉冲红光减弱VTADA的兴奋性奖励反应,以及短脉冲蓝光减弱DR5HT的抑制性奖励反应(图3a-c)。

无论是抑制DA输入还是激活5-HT输入,小鼠获得的奖励数量与对照组相似(图3d-e)。它们也学会了通过在CS开始后进行预期的端口进入,更有效地收集奖励(图3f)。相比之下,同时进行两种光遗传操作,获得的奖励少,并且所有组中端口进入次数最少(图3d-e)。至关重要的是,这组小鼠在CS开始后进入端口的时间最长,表明条件反应的习得受到了干扰(图3f)。

对实验中动物行为动态的额外分析支持了这样的结论:协调减弱两种神经调节性奖励信号比单独减弱DA和5-HT奖励反应更大幅度地损害了学习CS-US关联的能力(图3j-n)。这些结果表明,尽管在NAcpmSh中单独减弱DA或5-HT奖励反应可以在食欲学习任务中引起适度的行为缺陷,但针对两种神经调节反应的功能丧失操作会显著破坏形成新联想能力

                                   图3. 减弱DA和5-HT奖励反应会扰乱学习和强化

5. 相反的DA和5-HT信号驱动学习

作者目前的结果表明,最佳的联想性奖励学习需要DA和5-HT奖励信号的协调和对手变化,这可能调节奖励的享乐属性。光遗传学复现即使在没有自然奖励的情况下,VTADA和DR5HT奖励信号在一起应该比单独的任何操作更有效地驱动新的学习。这表明相反的VTADA和DR5HT奖励反应的整合比单独的任何操作更强烈地驱动学习。

条件性位置偏爱(CPP)实验 | 美国斯坦福大学研究揭示纹状体多巴胺和血清素对强化的对立控制

因为作者的功能丧失操作似乎通过减弱蔗糖强化物的奖励效果来干扰学习,作者预测同时的VTADA刺激和DR5HT抑制可以通过比单独的任何操作更强的奖励效果来引发CPP。作者在RTPP实验中验证了这个假设,并且尽管对VTADA刺激有场所偏好的趋势,但只有同时进行的两种操作产生了强烈的强化(图4i)。

在进一步操纵VTADA和DR5HT输入到NAcpmSh的实验中,作者考察了一种更复杂的联想学习形式。结果表明通过广泛的训练,单独刺激VTADA、单独抑制DR5HT以及两者同时在NAcpmSh中都可以驱动一定程度的学习(图4l)。

作者比较了单独刺激VTADA、单独抑制DR5HT或两者同时进行作为主要强化物的相对效力(图4n)。得出结论,NAcpmSh中相反的VTADA和DR5HT信号对奖励施加对手控制,并整合以驱动情境、巴甫洛夫和工具性形式的学习

                                   图4. 对手DA和5-HT奖励反应的整合推动了新的学习

6. DA和5-HT的对立关系扩展到NAccore

作者迄今为止的实验集中在NAcpmSh中DA和5-HT奖励信号的整合上,这是接收最密集的中脑DA和5-HT汇聚输入的区域。然而,这个区域在分子和功能上与其他纹状体亚区有所不同。值得注意的是,NAcpmSh由VTADA神经元支配,这些神经元与NAc核心(NAccore)和外侧壳(NAclatSh)投射群体不同,缺乏典型的奖励预测误差反应特征,并且对惩罚和奖励都产生兴奋反应。作者发现的DA和5-HT信号之间的对手关系可能是这个大脑区域独有的,而不是推动联想学习的普遍机制。

为了解决这种可能性,作者在NAccore重复了关键实验,这是在奖励学习背景下研究最广泛的纹状体区域,其中DA释放具有强烈的强化作用,并且一直被发现编码奖励预测误差。由于整个纹状体中都有记录的对奖励的兴奋性DA反应,而VTADA输入到NAccore的来源已知,作者结论的普遍性的关键结果取决于NAccore 5-HT输入的活动。作者发现投向NAcpmSh的DR5HT神经元与投向NAccore的神经元大量重叠,并部分与投向NAclatSh的神经元重叠,表明单个DR5HT神经元经常向多个纹状体目标区域发送轴突侧枝(图5a-c)。这表明5-HT输入动态很可能在NAcpmSh和NAccore之间是保守的。

接下来,作者检验了NAccore中相反的DA和5-HT奖励反应是否像NAcpmSh中所证明的那样,对强化作用施加对手控制。正如在NAcpmSh中观察到的,NAccore中抑制DR5HT本身既不是奖赏性的也不是厌恶性的(图5k)。另一方面,在NAccore中刺激VTADA释放引起了明显的地方偏好(图5l)。作者发现,在NAccore中,VTADA刺激本身具有很强的奖赏性,刺激VTADA与抑制DR5HT一起进行的强化作用比单独刺激相同的VTADA轴突要强得多(图5r)。这些结果表明,相反的DA和5-HT奖励信号以对手的方式工作,调节两个不同的纹状体亚区的奖励学习,包括被认为是学习和强化的关键部位

图5. DA和5-HT对强化的对手控制可以推广到NAccore

结论

作者开发了新的工具和策略,用于在同一只小鼠中研究DA和5-HT信号,促进了神经调节相互作用的研究。结果显示,短期内的对立关系至少是DA和5-HT系统塑造动机行为的一种方式,相反的DA和5-HT信号的整合通过强化作用控制学习,这一发现适用于情境性、巴甫洛夫式和工具性条件作用形式,并在两个纹状体区域之间具有普遍性。这项工作能促进调查DA和5-HT在大脑其他部位的组合作用,有可能加深对行为功能障碍的神经精神疾病的理解。

SA213 CPP条件位置偏爱箱

条件性位置偏爱实验(Conditioned Place Preference, CPP)是目前评价药物精神依赖性的经典实验模型,也是广泛应用于寻找抗觅药行为的有效工具。该实验将实验动物(大鼠、小鼠)置于条件性位置偏爱箱的白色观察区,并给予精神依赖性药物(例如吗啡),然后观察实验动物在条件性位置偏爱箱的黑色区和白色区的活动情况,白色区、黑色区以及其中的灰色 区之间有小门可供动物自由穿梭。动物每次处于给药区就会在药物奖赏性效应的作用下对黑色和白色区域产生位置上的偏好,其程度与药物的精神依赖性相关。

SA230 触屏斯金纳

大小鼠触屏认知行为系统是专为啮齿类动物设计的高效率、高通量的认知评价系统。系统提供了许多标准的范例,这些范例已经预先编写好,并存储在系统中,它包括了整个实验的任务条件,对操作习惯、图形形状、动物反应等应用程序都标准化,并提供了采集和分析数据的全套功能。