脑机接口突破!它可以把大脑中的“笔迹”变成屏幕文字,记录速度快,准确率高达99%以上。

                                                                       

当一个人因受伤或疾病而四肢瘫痪甚至不能说话时,只要大脑的神经活动仍然存在,科学家就有能力帮助患者恢复交流能力。

这不是科幻小说。最新的(brain-computer interface,BCI)技术在这方面实现了突破,效率超乎想象,最高可达99%。

此前,脑机接口(brain-computer interface,BCI)领域的一大研究重点是恢复患者的“运动技能”,例如,通过BCI操纵机械臂抓取物体,或者通过BCI移动计算机光标并点击字母进行输入。

这一次,来自斯坦福大学的研究人员开辟了一条新的道路。他们将人工智能(AI)软件与脑机接口设备相结合,成功开发了一种全新的大脑皮质内脑机接口系统。这个系统可以利用大脑运动皮层的神经活动来解码“手写”笔迹,并利用递归神经网络(RNN)的解码方法将笔迹实时翻译成文本,从而将患者对手写下的想法快速转换成计算机屏幕上的文本。

该研究论文发表在最新一期《自然》杂志的封面上,被视为该领域的一大技术进步。

研究论文的作者之一,斯坦福大学的霍华德?休斯医学研究所(HHMI)的研究员克里希纳?克里希纳·谢诺伊(Krishna Shenoy)表示,这项研究最大的创新是首次破译了与手写笔记相关的大脑信号,使瘫痪患者能够不用手快速打字。他和斯坦福神经外科医生杰米?Jaimie Henderson参与了这项研究,论文的第一作者是Frank,他也是来自HHMI的科学家。弗兰克·威莱特博士。

在实验中,一名受试者每分钟可以输入90个字符,是以前使用脑机接口打字记录的两倍多,接近同龄健康人每分钟115个字符的智能手机打字速度。而且线上原创准确率94.1%,线下自动批改准确率99%以上。

加州大学伯克利分校的神经工程师Jose Carmena没有参与这项研究,但他认为这项技术有潜力帮助各种残疾人。虽然研究结果是初步的,但“这是该领域的一大进步。”

美国国立卫生研究院NIH脑计划主任约翰?John Ngai博士说:“这项研究代表了BCI和机器学习技术发展的一个重要里程碑。相关研究正在揭示人类大脑如何控制像交流这样的复杂过程,这为改善神经损伤和瘫痪患者的生活提供了重要基础。”

中脑笔迹的神经表征

事实上,这项研究实际上是脑机接口项目BrainGate临床试验的一部分,这是一个多机构联盟项目,旨在帮助那些失去对肢体或其他身体功能控制的人,如肌萎缩侧索硬化症(ALS)或脊髓损伤患者。实验中名为“T5”的受试者在2007年因脊髓损伤几乎丧失了颈部以下的所有活动能力,手部动作仅限于抽搐和微动。

实验中,亨德森在T5的左脑中植入了两块脑机接口芯片。每个芯片有100个电极,负责接收来自运动皮层(大脑最外层区域)神经元的信号。运动皮层是控制手部运动的区域。这些神经信号通过导线发送到计算机,人工智能算法对信号进行解码,并猜测T5时刻手和手指的预期运动。

相比真实可见的笔迹,“阅读”想象中的笔迹最难的是什么?毫无疑问,就是如何在大脑中捕捉到这些笔迹的神经表征,以及这些表征是否可以使用。

为了评估笔迹的神经表征,受试者T5需要根据电脑屏幕给出的指令一次“写”一个字符,每个字母重复实验27次。

根据以往的经验,研究人员首先使用主成分分析来显示方差最大的前三个神经维度特征。

研究人员发现,由于神经活动的波峰和波谷随时间而变化,或许是由于书写速度的波动,神经活动似乎很强且可重复。为了直观地观察手写尝试期间记录的神经活动,他们使用时间比较技术来消除时间可变性,这揭示了每个字符特有的显著一致的神经活动模式。

为了确定神经活动是否编码了绘制每个形状所需的笔尖移动,研究人员通过从实验平均神经活动中线性解码笔尖速度来重建每个字符。容易识别的字母形状证实了笔尖速度被可靠地编码,并且代表笔尖速度的神经维度占总神经方差的30%。

其次,研究人员利用非线性降维方法(t-SNE)将每个实验的神经活动进行二维可视化,并在给被试“go”提示后记录相关信息。

T-SNE方法显示了每个字符的神经活动的紧密集群和一个占优势的运动编码。在这种编码中,书写相似的字符靠得更近。将最近邻分类器离线应用于神经活动,可以对字符进行分类,准确率为94.1%。

因此,研究人员得出结论,即使在瘫痪多年后,运动皮层对笔迹的神经表征可能仍然足够强大,可以通过脑机接口技术来表达。

你能解码“手写句子”吗?

成功解码手写信件的最终目的是使瘫痪患者实现顺畅的对外交流,这就需要实时解码“心灵”笔迹,完整呈现其想要表达的信息。

为此,研究人员专门训练了一个循环神经网络,它将神经活动转化为描述每个字符在每个时刻被书写的可能性的概率。这些概率可以通过一个简单的方法来设置,以发出离散的字符,或者通过使用一个大词汇量的语言模型来模拟离线应用程序的自我纠正特征,从而进行更广泛的处理。

研究人员在实验中使用了有限的31个字符,包括字母表中的26个小写字母,以及逗号,停顿,问号,句号和空格。为了收集实验中循环神经网络的训练数据,他们需要记录T5根据计算机监视器上的指令以自己的速度手写完整句子时的神经活动。

在第一天的实时评估之前,研究人员在三个实验天内共收集了242个句子,并将其组合起来训练循环神经网络。在随后每一天的实时测试中收集额外的训练数据,并在评估前重新校准。到最后一天,总共产生了572个训练句子(包括31,472个字符)。

为了训练这种递归神经网络,研究人员在语音识别中采用了神经网络方法来克服两个关键挑战:

(1)训练数据中每个字母的书写时间未知(因为T5的手瘫痪了),这使得应用监督学习技术具有挑战性;

(2)与典型的RNN数据集相比,数据集的大小是有限的,因此很难防止训练数据的过拟合。

在此基础上,研究人员在5天内评估循环神经网络的表现,每天包含4个评估块,包括7-10个循环神经网络从未接受过训练的句子。受试者T5会从屏幕提示中复制每一句话,试图一个字母一个字母地写出来,当递归神经网络检测到时,解码后的字符会实时出现在屏幕上。

经过测试,字符的出现和T5在大脑中的“笔迹”会有短暂的延迟,大约0.4-0.7秒。令人兴奋的是,整体打字速度非常快,平均每分钟90个字符,平均错误率仅为5.4%。当研究人员使用语言模型离线自动纠错时,整个系统的错误率进一步降低,其字符错误率降至0.89%,单词错误率降至3.4%。与世界上最先进的语音识别系统(单词错误率4C5%)相比,表现出了极佳的可用性。

最后,为了探索可能的解码性能限制,研究人员还离线训练了一个新的循环神经网络,使用所有可用的句子,以非因果的方式处理整个句子。在这种情况下,字符错误率仅为0.17%,这表明性能的潜在上限实际上非常高,尽管这种解码器目前无法为用户提供逐字的反馈。

实验还证明,当被试自己写句子(而不是复制屏幕上的提示句)时,也能获得高性能,每分钟打字73.8个字符,实时字符错误率为8.54%,语言模型错误率为2.25%。

解码器的改进方向

在每天收集的“校准”数据的帮助下,研究人员还每天重新训练“笔迹”解码器。

训练有助于解释神经记录随时间的变化,这种变化可能是由或电极阵列的微动引起的。理想情况下,为了减轻受试者的负担,应使用最少或不使用校准数据。

值得的是,实验数据显示,当两个会话之间仅过去2-7天时,性能显示出神经记录的短期稳定性,而无需重新训练解码器。

面对这种情况,研究人员通过使用语言模型来测试解码器是否可以纠正错误并重新训练解码器,从而绕过以无人监管的方式中断用户校准和重新训练的需要。令人鼓舞的是,无监督再训练的原始错误率仅为7.3%。

解码器能否用最少的重新校准数据成功地重新训练,还取决于神经活动随时间变化的速度。实验评估了与每个特征相关的神经模式的稳定性,发现短期稳定性非常高(相隔7天或更短)。这些结果对于临床病例是有希望的,因为它们表明无监督的解码器再训练可能有助于实现高性能。

这项研究实现了每分钟90个字符,创造了迄今为止报道的相关类型脑机接口技术的最快速度。对于皮质内脑-机接口,以前最好的方法是用2D计算机光标点击输入,每分钟只能输入40个正确的字符。点击式脑机接口的输入速度主要受限于解码精度。在参数优化过程中,增加光标增益以提高打字速度,直到光标移动过快,因解码错误而变得不可控。

通过对比分析,研究人员发现,手写字母可能比点对点运动更容易区分,因为手写字母的神经活动空的模式比直线运动的模式更多样,随时间变化的运动模式从根本上比点对点运动更容易解码。

                       
                       
0

抱歉,评论已关闭!