正强化:旧概念的新视角

                                               

大众心理健康网(www.dzxl120.com)
本文链接:https://www.dzxl120.com/post/287834.html

                       

关键点

  • 积极强化训练的新做法让动物更有效地学习.
  • 在正强化训练中,预测与奖励同样重要.
  • 诱饵不会引发导致强学习的神经激活或释放.
  • 奖励不一定是可食用的.事实上,过多的款待可能会浪费训练能力.

出于多种原因,动物训练倾向于正强化 (PR).它以比负面强化或惩罚更安全、更愉快、更快和更有效的方式教导良好行为.我们现在也对动物大脑中的多巴胺释放有了更多的了解,这是 PR 训练成功的神经机制.当神经元释放多巴胺的“液体喜悦"时,学习变得更加强大.

出于所有这些原因,我提倡通过奖励来训练马匹,但我的工作并不总是与常见的公关技巧相吻合.我很少使用食物,避免诱饵,并调节马对强化的期望.我开发新实践的原因与关于惊喜对动物大脑奖励系统影响的新研究有关.今天在马匹上使用的标准公关训练很有效,但效果并不理想.

了解正强化

多巴胺的释放不仅取决于获得奖励,还取决于动物对该奖励的价值和交付的期望.家 Wolfram Schulz、数学家 Peter Dayan 和家 Ray Dolan 表明,每次 PR 训练试验都会在动物大脑中产生两次不同的神经激活爆发.一个与获得奖励有关.那里没有什么新鲜事——这只是一个信号,当给予奖励时,神经元会发射并释放多巴胺.这是公关培训的基础,因为它已经在马匹上使用了好几年.

第二次神经激活与动物对奖励的预测有关.这是新的部分,在训练各种动物时很重要.具体来说,当奖励出现时,会释放出最大的多巴胺激增.因此,对于每个积极的行为,我们都必须考虑动物的期望以及该期望如何与现实相匹配.

让我们假设一匹马——或者狗、黑猩猩、海豚等等——期望在执行一项已知任务时获得奖励.让我们想象一下,这匹马知道奖励是什么——脖子上的一击,放松的片刻,或者标准公关训练师拿着的一点食物.当该奖励交付时,就不足为奇了.鉴于有证据表明期望具有其自身特殊的神经激活,我们现在知道缺乏惊喜产生的多巴胺少于惊喜奖励所产生的多巴胺.反过来,这会产生更少的学习.嗯,这不是我们想要的!

马更有可能重复奖励超出预期的行为.但典型的公关培训也存在另一个问题:许多所谓的“奖励"实际上是诱饵.良好行为后立即出现奖励;在行为之前或期间,诱惑是显而易见的.当驯马师拿着一把零食,一个接一个地分发来塑造一匹马的行为时,它们就不足为奇了.

假设我想在一个大牧场里抓一匹马.我走进来,手里拿着一根漂亮的肥胡萝卜.我摇晃诱饵,把它拿给马看,然后叫她来找我.她转过身来,因为嘿,我拿着胡萝卜!这种胡萝卜不会让马感到意外.它不太可能激活马的奖励系统或预测系统,因此几乎不会发生任何学习.

现在,让我们用同样的胡萝卜作为奖励.我进入牧场并召唤马.胡萝卜深藏在我的口袋里,而马太远了,在它的拉链袋里闻不到它的味道.

但她对我很好奇.她转身过去调查.当她来到我身边时,我从口袋里掏出胡萝卜递给她.哇!马儿惊呆了,好好吃,好新鲜,咬起来“啪"的一声好爽!通过使奖励令人惊讶,并且仅在期望的行为发生后才提供奖励,我们大大提高了我们的训练能力.诱饵不会有任何接近相同的效果.

收到第二个胡萝卜的惊喜——作为奖励,而不是诱饵——将激活马的奖励和预测系统,导致马脑中强烈的多巴胺释放,巩固课程.下次我打电话时,马会更有可能来找我,因为真正的基于大脑的学习已经发生了.

关键要点

顺便说一下,我在这个例子中使用了一个胡萝卜,但是奖励训练不需要食物.事实上,随着时间的推移,它会降低我们的训练能力.我将在下一篇今日文章中解释这一点.敬请期待!

总而言之,当通过正强化学习时,动物需要激活大脑 PR 系统的两个组成部分.训练师必须管理人类的选择和奖励的传递,但管理马对这些奖励的预测同样重要.毕竟,马脑,人脑!对吧?

参考

科学275,1593-1599.

Gadye, L.(2021 年 12 月 21 日). “发现多巴胺在奖励预测错误中的作用",Brainfacts/SfN. https://www.brainfacts.org/brain-anatomy-and-function/genes-and-molecul…

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论