预测编码理论:Meme of LinOnetwo — 林一二的模因和想法

预测编码理论

林一二2022年07月21日 11:14

奖励预测误差

奖励预测误差 (reward prediction error, RPE) 假说，简单而优美地说明了多巴胺可能是如何参与到奖励行为的强化学习和行动选择里的。这个假说源于系统神经科学里最有影响力的发现之一： Schultz 及其同事发现，中脑的多巴胺神经元对各种感官刺激 (sensory stimuli) 相关的奖励会产生具有高度典型性的激活 (Schultz 1998; 2007a,b)，其中最值得注意的是，多巴胺神经元仅对预料外的（事先不知道事件会发生、不知道其发生程度和发生时间）奖励结果（正预测误差）产生快速的间歇式激发 (phasic firing)，还会在没有获得奖励（负误差）时抑制激发（见下方的图 1a ），响应的大小随奖励大小而增加；相反，面对厌恶性刺激，许多多巴胺神经元的放电率则会降低。(图 1a; Ungless et al. 2004) 因此，多巴胺神经元编码了「拿到手的奖励」与「对奖励的预测」之差，差值可为正也可为负，如以下等式所示： $多巴胺响应 (Dopamine Response) = 拿到手的奖励 (Reward Occurred) - 预期可得的奖励 (Reward Predicted)$ 这一特征使多巴胺成为一个引人注目的神经递质：它能用于编码强化学习中的教学信号。
翻译：奖励与厌恶 - 神经调节系统在奖励与厌恶中的作用之一：多巴胺能系统

预测编码理论