《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

摘要:
《自然》杂志:不仅是语言,机器翻译也可以将脑电波“翻译”成文字。如果人脑的神经信号也被视为一种语言,那么应用机器翻译框架来解释神经信号的可行性似乎并不令人惊讶。旧金山加州大学的研究人员在《自然神经科学》上发表的一篇论文中,将这一想法付诸实践。没有参与者的总训练数据超过40分钟。当重复至少15次时,WER可能小于25%。

  《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

  如果将人脑的神经信号也视为一种语言,那么将机器翻译架构应用于解读神经信号的可行性似乎并不令人惊讶。在《Nature Neuroscience》的一篇论文中,来自加州大学旧金山分校的研究者实践了这一想法。他们用一个编码器-解码器框架将大脑神经信号转换为文字,在 250 个词的封闭句子集中将错误率降到了 3%。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

  在过去的十年里,脑机接口(BMI)已经从动物实验转变为人类实验,其中具有代表性的结果是使得四肢瘫痪者恢复一定的运动能力,在空间维度中的两个自由度上实现连续运动。尽管这种类型的控制也可以与虚拟键盘结合使用来生成文本,但即使在理想的光标控制下(目前尚无法实现),码字率仍受限于单指打字。另一种选择是直接解码口语,但到目前为止,这种 BMI 仅限于解码孤立的音素或单音节,或者在中等数量词汇(约 100 单词)构成的连续语音中,正确解码不到 40% 的单词。

  为了获得更高的准确度,来自加州大学旧金山分校的研究者利用了「从神经活动解码语音」与「机器翻译」两个任务之间的概念相似性。这两种任务的目标都是在同一基础分析单位的两种不同表示之间建立映射。更确切地说,二者都是将一个任意长度的序列转化为另一个任意长度的序列(任意是指输入和输出序列的长度不同,并且彼此之间没有决定性的联系)。

  在这项研究中,研究者试图一次解码一个句子,就像当下大多数机器翻译算法一样,因此这两种任务实际上都映射到相同类型的输出,即一个单词序列对应于一个句子。另一方面,这两种任务的输入是存在很大区别的:分别是神经信号和文本。但是,当前机器翻译架构可以通过人工神经网络直接从数据中学习特征,这表明机器翻译的端到端学习算法几乎可以直接运用于语音解码。

  为了验证这一假设,在语音生成过程中,研究者利用从脑电图(ECoG)获得的神经信号以及相应口语的转录,训练了一种「序列到序列」的架构。此外,这项任务和机器翻译之间最重要的区别在于,后者的数据集可以包含超过 100 万个句子,但构成该研究基础的脑电图研究中的单个参与者通常只提供几千个句子。

  为了在相对不足的训练数据中利用端到端学习的优势,研究者使用了仅包含 30-50 个不同句子的限制性「语言」,并且在某些情况下,采用了其他参与者的数据和其他语音任务的迁移学习。

  这项研究的参与者从以下两个数据集之一中大声朗读句子:一组图片描述(30 句,约 125 个不同单词),通常以一个会话的形式描述;或 MOCHATIMIT14(460 句,约 1800 个不同单词),以 50 句分组的会话进行(最后一组 60 句),研究者称之为 MOCHA-1、MOCHA-2 等等。在时间允许的情况下重复分组会话。对于测试,研究者只考虑了至少重复三次的句子集(即提供一组用于测试,至少提供两组用于训练),这在实践中将 MOCHA-TIMIT 集限制为 MOCHA-1(50 句,约 250 个不同单词)。

  方法

  这里首先简要描述解码流程,如下图所示:

解码流程

  研究者要求参与者大声朗读句子,同时利用高密度 ECoG 网格(ECoG grid)记录他们 peri-Sylvian 皮质的神经活动。

  在每个电极上,ECoG 信号的高频分量(70-150Hz,即「high-γ」)的包络线(即该范围内分析信号的振幅)在大约 200Hz 处提取。然后将所得的序列(每个对应于一个句子)作为输入数据传递到「编码器-解码器」式的人工神经网络。

  网络分三个阶段处理序列:

  时间卷积:类似的特征很可能在 ECoG 数据序列的不同点上重现,全连接的前馈网络无法利用这样的特点。

  编码器 RNN:下采样序列被 RNN 按序处理。在每个时间步中,编码器 RNN 的输入由每个下采样序列的当前样本以及它自己的先前状态组成。然后最终隐藏状态(Final hidden state,上图中的黄色条)提供整个序列的单个高维编码,与序列长度无关。为了引导编码器在训练过程中找到有用的解,研究者还要求编码器在每个时间步中预测语音音频信号的表示,即梅尔频率倒谱系数的序列 (MFCCs)。

  解码器 RNN:最后,高维状态必须转换回另一个序列,即单词序列。因此,我们初始化第二个 RNN,然后训练为在每个时间步骤解码出一个单词或序列结束 token(在该点终止解码)。在输出序列的每个步骤中,除了自身先前的隐藏状态外,解码器还以参与者实际说出句子中的前一个单词作为输入(在模型训练阶段),或者它自己在前一步预测的单词作为输入 (在测试阶段)。与以前针对语音音素进行语音解码的方法相比,该方法将单词作为目标。

网络架构。

  网络架构。

  整个网络同时进行训练,使编码器生成值接近目标 MFCC,并使解码器为每个目标词分配高概率。请注意,MFCC 目标提供了一个「辅助损失」,这是一种多任务学习的形式,其目的仅仅是引导网络找到解决词序解码问题的足够好的解。在测试期间,MFCC 预测被丢弃不管,解码完全基于解码器 RNN 的输出。所有的训练都是通过反向传播的随机梯度下降进行的,并将 dropout 应用于所有的层。

  实验结果

  在整个实验过程中,研究者用平均单词错误率 (WER,基于所有测试句子计算) 来量化性能,因此,完美解码的 WER 为 0%。作为参考,在语音转录中,5% 的 WER 为专业水平,20-25% 为可接受的性能。这也是语音识别技术被广泛采用的标准,尽管它的参考词汇量要大得多。

  我们首先考虑一个示例参与者说 MOCHA-1 的 50 个句子(大约 250 个不同单词)时的编码器-解码器框架的性能(见下图)。下图中参与者的平均 WER 约为 3%。以前最先进方法的语音解码 WER 是 60%,并使用较小的词汇量(100 词)进行实验。

解码句子的WERs。

  解码句子的WERs。

  编码器-解码器网络的卓越性能源自什么?为了量化其各种因素的贡献,研究者系统地删除或削弱了它们,并从头开始训练网络。上图中的第二个方框显示了对数据进行空间下采样以模拟较低密度 ECoG 网格的性能。具体来说,只留下了网格两个维度上四分之一的通道(也就是说,实际上是 64 个通道,而不是 256 个通道)。WER 大约是原来的四倍,仍然在可用范围内,这表明了除高密度网格外其它因素对于该算法的重要性。

  第三个方框内显示当 MFCC 在训练过程中未被锁定时的性能,其 WER 与使用低密度网格数据训练的模型的 WER 接近,但仍然明显优于先前的语音解码方法。

  接下来,研究者考虑一个输入层是全连接而不是卷积的网络(第四个框),WER 达到了原来的 8 倍。

  然后考虑实现高性能需要多少数据。下图显示了四个参与者的 WER,作为神经网络训练重复次数的函数。没有任何参与者的训练数据总量超过 40 分钟,当至少有 15 次重复训练时,WER 可能低于 25% 以下。

  在下图中,有两名参与者,他们在 MOCHA 句子上的训练次数很少 (参与者 a/绿色实线,参与者 d/棕色实线),因此解码性能较差。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

免责声明:文章转载自《《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇人工智能如何重新定义云计算技术并提高业务效率一文读懂机器阅读理解下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

常用翻译技巧

1、增译法:指根据英汉两种语言不同的思维方式、语言习惯和表达方式,在翻译时增添一些词、短句或句子,以便更准确地表达出原文所包含的意义。这种方式多半用在汉译英里。汉语无主句较多,而英语句子一般都要有主语,所以在翻译汉语无主句的时候,除了少数可用英语无主句、被动语态或"There be…"结构来翻译以外,一般都要根据语境补出主语,使句子完整。英汉两种语言在名词、...

推荐!国外程序员整理的机器学习资源大全

本文由伯乐在线-toolate翻译自awesome-machine-learning。欢迎加入技术翻译小组。转载请参见文章末尾处的要求。 本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 C++ 计算机视觉 CCV—基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java...

Vijos1774 机器翻译 [模拟]

1.题意:给定一段长度为N个单词的文章(一个单词用一个非负整数表示),可以使用一个容量为M个元素的容器。你的任务是使用字典的帮助翻译文章,遇到一个单词,查询之后将此单词的释义放入容器中,下次遇到时若此释义还在容器中就可以不用查字典直接得到结果。当容器已满,再遇到需要进入容器的单词,将容器中最早进入的单词剔除,将当前的单词加入。最后要求给出整个过程中需要查字典...

必应词典使用体验及改进建议

必应词典使用体验及改进建议 一、发现的BUG 1、使用PC客户端(版本号3.5.0),因为是第一次使用必应词典,之前一直习惯用有道,有自己的生词本,以xml格式保存,这次希望通过必应词典把有道词典旧有的生词本中的内容同步到必应词典当中来,结果发生了如下的事情: 选择导入 点打开出现弹窗: 我觉得很纳闷:都是xml格式的文件,为什么有道能正确打开并解析,...

【JAVAWEB学习笔记】17_jsp

动态页面技术(JSP/EL/JSTL) 学习目标 案例:完成商品的列表的展示 一、JSP技术 1.jsp脚本和注释 jsp脚本: 1)<%java代码%> ----- 内部的java代码翻译到service方法的内部 2)<%=java变量或表达式> ----- 会被翻译成service方法内部out.print()...

作业12

补交的作业(疫情在家学习期间无电脑,之前在家时已向老师说明情况了): 作业1:https://www.cnblogs.com/hongxinma/p/12895161.html 作业2:https://www.cnblogs.com/hongxinma/p/12895392.html 作业3:https://www.cnblogs.com/hongxin...

最新文章