人工智能将人脑信号翻译成文本

                                               

大众心理健康网(www.dzxl120.com)
本文链接:https://www.dzxl120.com/post/6684.html

                       

Geralt/Pixabay
来源:Geralt/Pixabay

技术和有一天能使人们仅使用思想进行静默打字吗?现在,科学家朝着由人类思想驱动的计算机界面迈进了一步.加州大学旧金山分校(UCSF)的神经科学家上周在 Nature Neuroscience 中发表了一项研究,该研究表明他们的(BCI)如何将人的大脑活动转化为相对较高的文本人工智能机器学习以高准确度和自然语音速率进行搜索.

UCSF集成神经科学中心的神经科学研究员Edward Chang,David Moses和Joseph Makin和神经外科部门进行了突破性研究,部分资金来自Facebook Reality Labs.三年前,Facebook在F8大会上宣布,该大会是每年一次的开发人员活动,重点关注技术的未来,它通过支持一组UCSF研究人员团队(旨在帮助患有脑损伤的患者进行交流)来开发脑机接口的计划.最终,Facebook的愿景是创建一种可穿戴设备,该设备可无创地使人们通过想象自己的讲话来打字.

为实现他们最近的突破,UCSF研究人员使用了一次解码句子的方法,类似于现代机器翻译算法的工作方式.为了检验他们的假设,他们在语音产生和相应口语句子的转录过程中,使用了来自皮层脑电图(ECoG)的大脑信号训练了一个模型.他们使用了限制语言,限制为30至50个独特的句子.

该研究的参与者是UCSF医学中心的四名同意患者,他们已经接受了治疗并正在临床监测癫痫发作.参与者朗读在计算机屏幕上显示的句子.两名参与者从具有30个句子和大约125个唯一词的图片描述集中读取句子,其余两个句子从MOCHA-TIMIT数据集中的50个块(或最后一个块中的60个词)中读取,该句子具有460个句子和1800个唯一词话.

当参与者大声朗读时,他们的大脑活动是通过ECoG阵列(120-250个电极)记录的,这些电极通过手术植入每个患者的皮层表面.具体来说,三名参与者在周缘皮层皮质上植入了256通道网格,一名参与者在西尔维安裂缝的背侧植入了128通道网格.

ECoG数组将输入数据提供给编码器/解码器样式的人工神经网络(ANN).人工神经网络分三个阶段处理序列.

在第一阶段,ANN学习时间卷积滤波器以对ECoG数据中的信号进行下采样.这样做的原因是为了潜在地解决前馈网络的局限性,该局限性可能会因ECoG数据序列中不同点处可能出现的类似功能而引起.过滤器会产生一百个特征序列.

在下一阶段,这些序列将传递到编码器递归神经网络(RNN),该网络将学习以最终隐藏状态汇总这些序列,并提供整个序列的高维编码.

在最后阶段,由编码器RNN产生的高维状态由解码器递归神经网络转换.第二个递归神经网络学习预测序列中的下一个单词.

总体而言,以编码器的输出值接近目标梅尔频率倒谱系数(MFCC)的方式训练神经网络,同时,解码器为每个目标词分配高概率.训练是通过反向传播使用随机梯度下降进行的.

研究人员报告说,他们的系统比其他现有的脑机接口获得了更高的准确率.加州大学旧金山分校的神经科学家报告说,使用他们的技术,可以从ECoG数据中解码语音,而在250个单词的数据集上,单词错误率低至3%.根据USCF研究人员的说法,其他现有的脑机接口仅限于“正确解码少于40%的单词".研究人员认为,使该解决方案与众不同的是,他们的神经网络已学会“从ECoG数据中识别单词,而不仅仅是句子,因此可以推广到新颖句子的解码."

如今,信息是通过语音,触摸屏和键盘传输到计算设备的.有一天,智能手机和其他计算设备会受到思考,打字,手指触摸或说话的引导吗?通过神经科学和人工智能机器学习的跨学科组合,科学家们正在进一步开发技术,这些技术不仅可以帮助患有锁定综合征和言语障碍的人,而且可以改变我们所有人与智能手机和计算设备进行交互和互动的方式.不太遥远的未来.

版权©2020 Cami Rosso保留所有权利.

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论