DeepMind关于大脑的多巴胺系统和AI

                                                                       

GJD/Pixabay
来源:GJD/Pixabay

人工智能(AI)研究人员通过将人类智能的理论和概念应用于学习,动机,记忆,推理等工作,努力提高机器智能.人工智能中有一些概念,即神经网络,在某种程度上受到大脑的启发.所料想不到的是相反的情况-使用机器学习概念来帮助解释生物大脑如何工作.在最近的意外转折中,人工智能(AI)研究人员将分布式强化学习应用于,以更好地了解大脑中,悲观情绪和乐观情绪之间的相互作用.

2020年1月,DeepMind的研究科学家在 Nature 上发表了同行评审的研究,该研究将机器学习概念应用于神经科学实验.研究结果揭示了生物大脑的多巴胺系统和AI分布强化学习算法之间的相似性.这些发现可能会验证AI机器学习的最新进展,并在动机和领域推进神经科学.

Will Dabney,Zeb Kurth-Nelson,Naoshige Uchida,Clara Kwon Starkweather,Demis Hassabis,Remi Munos和Matthew Botvinick的研究团队着手检验他们的假说,即基于多巴胺的生物大脑的强化学习奖励预测可以被预测用概率分布而不是一个均值来表征,该概率分布同时并行地代表多个未来结果.

多巴胺是一种神经递质和激素,会影响愉悦,学习,运动,认知,情绪,工作记忆,动机和疼痛处理等功能.症,苯丙胺成和帕金森氏症的共同特征是大脑的多巴胺系统.

强化学习是一个适用于许多学科的概念,例如,经济学,行为研究,教育,博弈论,信息论,运筹学,群智能和遗传计算机算法.强化学习算法的例子包括蒙特卡洛(Monte Carlo),Q学习,SARSA,深度Q网络(DQN)等.

美国心理学家,行为主义者和美国心理学会终身成就奖获得者BF斯金纳(BF Skinner)在1930年代提出了操作员调节的概念,该概念的行为是由强化或惩罚的结果决定的,而行为的改变是由于对环境中事件的响应.

AI强化学习是一种机器学习,其中通过奖励和惩罚系统通过与环境互动来训练算法.代理人试图使报酬最大化而使惩罚最小化.深度强化学习将深度神经网络与强化学习架构结合在一起.

多巴胺的奖励预测误差(RPE)理论解释了大脑如何表示奖励和价值.为了预测奖励,开发了时差学习(TD)算法.它通过对立即奖励的预测及其对下一个即将到来的奖励的预测来工作.当收到新数据时,可以使用任何差异将旧的预测调整为新的预测,从而将预测的准确性提高到实际结果.

研究人员P. Read Montague,Peter Dayan和Terrence J. Sejnowsk于1996年发表在《神经科学杂志》上.他们的发现“大脑皮层中的活动如何预测将来获得奖赏和高于和低于基线水平的弥漫性多巴胺系统中神经元活动水平的波动如何表示这些预测中传递给皮层和皮层下靶点的误差."这表明大脑使用了时差学习算法.从那时起,这个概念就被神经科学界广泛接受.

在计算机科学中,分布式强化学习算法改善了神经网络中的强化学习.与时间差异学习(TD)算法不同,分布强化学习算法使用一系列预测,这些预测可以捕获未来奖励的全部概率分布.

从数学上讲,直观地看出,与使用单个数量(即按潜在概率加权的平均总体潜在奖励结果)相比,捕获全部概率分布将提供更丰富的学习效果. DeepMind研究人员对此进行了测试.

DeepMind研究人员写道:“我们假设大脑不是以均值的形式而是以概率分布的形式来代表可能的未来回报," DeepMind研究人员写道. “这个想法暗示了一组经验预测,我们使用来自小鼠腹侧被盖区的单个单位的记录进行了测试.我们的发现为神经网络实现分布强化学习提供了有力的证据."

DeepMind研究人员在可变概率测试中训练了五只老鼠,在可变幅度任务中训练了六只不同的老鼠.对于可变概率,给小鼠提供四种不同气味中的一种,稍作停顿,然后给予奖励(3.75μl水)或罚款(吹气).奖励的机会各不相同(气味1为90%,气味2为50%,气味3为10%).吹有异味4的机会是90%.气味的含义是随机的.对于可变幅度,在90%的试验中,奖励量是随机提供的(0.1、0.3、1.2、2.5、5、10或20μl水),对于其他10%的试验,则提示有气味表示没有奖励.在50%的试验中,奖励带有气味信号,表明奖励即将到来,但幅度不大,而另一半则没有气味提示.

该团队使用光遗传学进行观察.具体来说,为了跟踪记录过程中的多巴胺神经元,在转基因小鼠中的VTA神经元用Channelrhodopsin-2(ChR2)标记.

分布TD模型的预测紧密反映了大脑的多巴胺细胞对七个不同奖励幅度的反应.不同的多巴胺细胞显示不同的扩增.对多巴胺能神经元进行了不同程度的乐观或悲观度校准,并以类似于分布式强化学习的方式整体操作.

DeepMind研究人员写道,他们的发现“为分布增强学习的神经实现提供了有力的证据",并且这可能会为未来的神经科学研究开辟道路,因为多巴胺的分布假说可能会影响多巴胺的作用机制.,例如和抑郁.这就是数学,行为心理学,光遗传学,统计学和AI机器学习相结合的跨学科领域如何促进神经科学发现的原因.

Cami Rosso 2020版权所有.

                                               
1
订阅评论
提醒
0 评论
内联反馈
查看所有评论