使用AI将脑电波转换成文字
2021-08-12 21:23
加利福尼亚大学旧金山分校的一项新研究通过将一名瘫痪男子的大脑信号转换成计算机生成的文字,使该男子获得了交流能力。这项研究发表在《新英格兰医学期刊》上,标志着在帮助失去语言能力者恢复交流能力方面所取得的重要技术进展。
加利福尼亚大学旧金山分校Joan and Sanford Weill 医学中心神经外科主任Edward Chang表示:“据我们所知,这是第一次成功证明能够从瘫痪和丧失语言能力者的大脑活动中直接解码出完整的文字。这项研究表明,通过挖掘大脑的自然语言机制来恢复交流具有很大的可能性。”
一些语言障碍人士会使用触摸屏、键盘或语音生成计算机等辅助设备进行交流。但每年都有数千人因瘫痪或脑损伤而失去语言能力,此类人群无法使用辅助技术。
这位参与者在2003年的一次车祸后因脑中风而瘫痪,从而失去了语言能力。研究人员不确定他的大脑是否保留了与语言有关的神经活动。为了追踪他的大脑信号,研究人员将一个由电极组成的神经假体装置放置在他的大脑左侧,该装置横跨了多个已知的语言处理区域。
在约四个月的时间里,研究小组进行了50次训练。在训练中,参与者根据提示说出单个单词、造句或回答显示屏上的问题。在参与者回应提示时,电极装置会捕捉他的神经活动并将信息传输至安装了定制软件的计算机。
Edward Chang实验室博士后工程师、该研究的主要作者之一David Moses表示:“我们的模型需要学习复杂的大脑活动模式和目标语言之间的关联。由于参与者无法说话,因此这项工作的难度很大。”
为了对参与者的大脑活动反应进行解码,该团队创建了语音检测和单词分类模型。研究人员使用cuDNN加速TensorFlow框架和32个NVIDIA V100 Tensor Core对这些模型进行训练、微调和评估。
这项研究的共同负责人Sean Metzger表示:“神经网络的使用对于获得我们的分类和检测性能至关重要,并且我们的最终成果来自于大量实验。由于我们的数据集在不断变化和增长,因此我们必须能够调整我们所使用的模型。GPU帮助我们进行更改、监测进程和理解我们的数据集。”
该模型的准确率中位数为75%,最高可达到93%,能够以每分钟18个单词的速度解码参与者的语言。
这项研究建立在Edward Chang和其同事之前的工作基础上,他们开发了一种深度学习方法来解码和转换大脑信号。与这次研究工作不同的是,以前研究中的参与者都能够说话。