神经科学突破:人工智能将思维转换为语音

                                                                       

orla/istockphoto
来源:orla/istockphoto

首先是键盘,然后是触摸和语音来控制计算设备和应用程序.下一步是什么?纽约市哥伦比亚大学Mortimer B. Zuckerman心理大脑行为研究所(em> )的研究人员宣布了“科学第一"的发明,发明了一种脑计算机接口(BCI),该技术可以将人类的思想转化为语音.比现有解决方案更高的清晰度和精度.由Nima Mesgarani博士领导的研究团队于2019年1月29日在《自然》研究杂志 Scientific Reports 中发表了他们的发现.

是大脑与计算机之间的双向通信路径.许多BCI研究项目都集中在运动,视力,听力或语言丧失或受损的人的神经假体用途上,例如那些受中风,脊髓损伤,肌萎缩性侧索硬化症(ALS),失语症(由于大脑引起的语言障碍)影响的人损伤,耳蜗损伤和锁定综合征.

直到这一具有里程碑意义的突破之前,用于解码脑信号的过程使用了基于线性回归的更简单的计算模型来分析产生难以理解的语音的声频(频谱图)的视觉表示. Mesgarani和他的研究团队将语音合成中的最新创新技术与AI深度学习相结合,以提高重构语音的清晰度,从而显着改善结果.

Mesgarani与Northwell Health Physician Partners神经科学研究所的神经外科医师Ashesh Dinesh Mehta博士合作,对已经接受脑外科手术治疗的耐药性局灶性患者的大脑活动进行了测量.

,有创脑皮层照相术(ECoG)用于测量五名研究参与者的神经活动,他们都自我报告了正常的听觉能力,而他们听了四个演讲者讲了半个小时的故事.所记录的神经模式被用作数据输入,以训练声码器,声码器是一种分析并合成人类语音的音频处理器.

在对声码器进行训练之后,研究人员记录了相同参与者的大脑信号,而他们在听零至九个扬声器的声音.这些记录的大脑信号通过声码器输入,从而产生合成语音.接下来,研究人员使用人工神经网络来优化声码器产生的语音,然后让11名听觉正常的受试者收听输出.

研究人员发现,与使用线性回归重构听觉频谱图的基线方法相比,使用具有非线性回归的深层神经网络(DNN)可将清晰度提高67%.这些参与者可以理解并以75%的准确度重复DNN声码器组合所产生的声音.研究人员认为,“研究结果显示了深度学习模型相对于其他技术的优越性,特别是在训练数据量大的情况下",并且“增加训练数据量可导致更好的重建精度."

研究人员发现了一种“可用于语音神经假体技术的通用框架,该框架可从人类听觉皮层中获得准确且可理解的语音重建".他们认为他们的大脑到计算机系统是最先进的,并且是“迈向下一代人机交互系统的一步,并且为患有麻痹症和锁定综合征的患者提供了更自然的交流渠道."

人工智能深度学习的兴起为跨学科的科学发展创造了良好的泉源,特别是在和生物医学工程领域.将来,计算设备将由人为思想来管理吗?

版权所有©2019 Cami Rosso保留所有权利.

参考

Akbari,Hassan,Khalighinejad,Bahar,Herrero,Jose L.,Mehta,Ashesh D.,尼玛(Nima)梅斯加拉尼(Mesgarani),“努力从人类听觉皮层重建可理解的语音." 科学报告. 2019年1月29日.

                       

大众心理健康网(www.dzxl120.com)
本文链接:https://www.dzxl120.com/post/6731.html

                       
1
订阅评论
提醒
0 评论
内联反馈
查看所有评论