我们如何从错误中学习?

                                                                       

 Irina_kukuts/Pixabay
来源:Irina_kukuts/Pixabay

假设您在自动售货机上,插入一张美元的钞票以获得直板棒棒糖.但是,您得到的不是两个糖果,而是您想要的,而是两个糖果.您认为:“这真是令人惊讶的惊喜,好于我的预期."结果,您的(大脑中的愉悦化学物质)反应增强.如果您按预期收到一种糖果,则多巴胺没有变化.另一方面,如果没有糖果,多巴胺神经元的活动就会降低.

此示例中的基本思想是,神经元释放多巴胺的程度与特定事件的预期和实际回报之间的差异成正比.不可预测的奖励比可预测的奖励导致更多的多巴胺释放.多巴胺越多,意味着更多的乐趣.

现场体育赛事吸引人的部分原因是其固有的不可预测性.人们不断回来,仿佛沉迷于获得意外奖励的喜悦.实际上,赌博旨在产生令人惊讶的奖励.赌徒正在买一个令人惊喜的前景.不确定的报酬以及报酬本身的预期会引起强烈的兴奋.对这种兴奋的习惯性追求会导致.

令人惊喜的是积极的奖励预测错误. Schultz(2016)解释说,当所收到的感知报酬与预测的报酬不同时,存在预测错误.错误是期望值与实际发生值之间的差异.我们希望正面的预测错误而讨厌负面的预测错误.

多巴胺激增的目的是使大脑新的和潜在的重要刺激.当刺激不再新颖时,我们就习惯了.如果有人告诉他们肯定会获得任何奖金,然后再获得该奖金,那就没有惊喜,也不会释放多巴胺.

对意外结果的敏感性在我们每天学习新事物的能力中起着关键作用.我们会在任何意外情况发生时学习,而在事情可预测时则不会学习.相比之下,高度可预测的环境会导致注意力减少和唤醒(嗜睡)降低.

例如,一家餐厅的一顿饭比预期的要好,这会告诉我们一顿饭与预期的不同,我们最好调整一下对这家餐厅的好食物的预测.在课堂环境中,学生会对与他们所期望的相反的令人惊讶的解释更有说服力.没有什么能像意料之外的那样集中思想.

许多响亮的声音(例如,汽车警报器,砰的一声关门,甚至有人在街上大喊大叫)都会使退伍军人感到震惊,这些人将响亮的突然声音与直接危险联系在一起.但是,最终,他们了解到很大的噪音表示无害.因此,预测误差的作用是更新对未来事件的期望.

当违反学习的规则时,多巴胺神经元会做出反应.奖励系统会收到这样的信息,即旧规则不再适用,可能是时候学习新的关联了.

简而言之,我们在生活中学到的东西取决于我们期望的与实际发生的事情之间的差异有多大.尽管错误通常被认为是错误的,但是它们仍然可以帮助我们最终完成一项任务并获得回报.如果没有其他错误发生,则该行为直到下一个错误才会改变.

该理论还具有有害的副作用.我们熟悉周围的事物,达成目标会使我们不高兴.新活动起初令人兴奋,但随后变得无聊.最初,附加的物质商品和服务会带来额外的乐趣,但通常是暂时的.多余的乐趣消逝了.

习性类似于对药物的耐受性.这种习惯驱使我们朝着总是想要更多的回报.没有什么比第一次更好.作为人类,我们习惯了事物.诀窍是控制习惯,以便您可以继续品尝自己真正喜欢的活动的乐趣.获得幸福就是学习如何渴望已经拥有的东西.佛陀曾经说过,幸福的秘诀是学会想要自己拥有的东西,而不想要自己没有的东西.

参考

Schultz,Wolfram,(2016).多巴胺奖励预测错误信号:两部分反应.纳特牧师. 17,183–195.

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论