预测未来:语音识别的神经计算机模型





什么是人类语言?这些单词的组合使您可以表达这些信息。问题出现了,我们如何知道一个单词何时结束而另一个单词何时开始?这个问题很奇怪,许多人会认为,因为从出生开始,我们就听到周围人的讲话,我们学会说话,写作和阅读。语言知识的积累当然起着重要的作用,但是除此之外,还有大脑的神经网络将语音流分为组成词和/或音节。今天,我们将熟悉一项研究,来自日内瓦大学(瑞士)的科学家通过预测单词和音节创建了语音解码的神经计算机模型。大脑的哪些过程成为模型的基础,“预测”这个大词的含义是什么,所创建的模型的有效性如何?这些问题的答案在科学家的报告中等待着我们。走。



研究依据



对于我们人类来说,人类的言语是可以理解的(很常见)。但是对于机器而言,这只是声音信息流,需要先对固体信号进行解码才能理解。



人脑的行为方式几乎相同,对我们而言,它发生得非常快且潜移默化。科学家认为,这一过程和许多其他大脑过程的基础是某些神经元振荡及其组合。



特别地,语音识别与θ和伽马振荡的组合相关联,因为它允许在不事先知道它们的持续时间和时间起源的情况下(即,在不知情的情况下)分级地协调音节中音素的编码。实时*上游处理
* (bottom-up) — , .
自然语音识别还严重依赖于上下文信号,这使您可以预测语音信号的内容和时间结构。先前的研究表明,预测机制在连续语音的感知中起着重要的作用。此过程与beta波动有关。



当大脑不断生成并更新环境的心理模型时,语音信号识别的另一个重要组成部分可以称为预测编码。该模型用于生成与实际触摸输入进行比较的触摸输入预测。预测信号与实际信号的比较导致识别错误,这些错误用于更新和修改心理模型。



换句话说,大脑总是在学习新事物,不断更新周围世界的模型。在语音信号的处理中,该过程被认为是至关重要的。



研究人员指出,许多理论研究都支持自下而上和自上而下的语音处理方法。
向下处理*自上而下)-分析系统组件,以其复合子系统的方式进行逆向工程。
先前开发的神经计算机模型(包括逼真的theta和伽马激发/抑制网络的连接)能够对语音进行预处理,以便可以对其进行正确解码。



仅基于预测编码的另一种模型可以准确地识别单个语音元素(例如单词或完整的句子,如果我们将其视为一个语音元素)。



因此,这两种模型都在不同的方向上起作用。一个专注于语音分析的实时方面,另一个专注于孤立语音片段的识别(无需分析)。



但是,如果我们将这些根本不同的模型的基本原理结合在一起,该怎么办?根据我们正在研究的研究作者的观点,这将改善神经计算机语音处理模型的性能并提高其生物学真实性。



在他们的工作中,科学家决定测试基于预测编码的语音识别系统是否可以从神经振荡过程中获得一些收益。



他们基于预测编码结构开发了神经计算机模型Precoss(来自预测编码和语音振荡),并在其中添加了theta和γ振荡函数来应对自然语音的连续性。



这项工作的具体目标是找到一个问题的答案,即预测编码和神经振荡的组合是否对识别自然句子的音节成分是否有益。特别是,研究了theta振荡可以与向上和向下的信息流相互作用的机制,并评估了这种相互作用对音节解码过程效率的影响。



Precoss模型架构



该模型的重要功能是它必须能够使用连续语音中存在的时间信号/信息来确定音节的边界。科学家建议,内部生成模型(包括时间预测)应从此类信号中受益。为了适应该假设以及语音识别过程中发生的重复过程,使用了连续预测编码模型。



开发的模型清楚地将“什么”和“何时”分开。 “什么”-指音节的身份及其频谱表示(不是暂时的,而是频谱向量的有序序列); “何时”-指对音节的时间和持续时间的预测。



结果,预测采用两种形式:由theta模块发出信号的音节的开头;音节持续时间,由外源/内源theta振荡信号表示,定义了伽马同步单位序列的持续时间(下图)。





图像#1



Precoss通过参考生成模型从其源的内部表示中提取传感器信号。在这种情况下,感觉输入对应于语音信号的慢幅度调制和完整自然句子的6声道听觉频谱图,模型在内部从四个分量生成:



  • θ摇摆
  • θ模块中的慢幅度调制单元;
  • 音节单位池(与自然入门句中的音节数目相同,即4到25);
  • 光谱时模块中的八个伽马单元库。


音节和伽马波形的单位一起生成有关输入频谱图的自上而下的预测。八个伽马单元中的每一个代表一个音节中的一个相位。它们被顺序激活,并重复整个激活序列。因此,每个音节单元与八个向量的序列(每个伽马单元一个)相关,每个向量具有六个分量(每个频道一个)。通过在整个音节持续时间内激活相应的音节单元,可以生成单个音节的声谱图。



当音节块编码特定的声音模式时,伽马块在音节的持续时间内临时使用相应的频谱预测。关于音节持续时间的信息由θ振荡给出,因为它的瞬时速度会影响伽玛序列的速度/持续时间。



最后,在处理下一个音节之前,必须删除有关预期音节的累积数据。为此,最后一个(第八个)伽马块对一个音节的最后一部分进行编码,将所有音节单位重置为总体较低的激活水平,从而可以收集新的证据。





图片编号2



模型的性能取决于伽玛序列是否与音节的开头重合,以及其持续时间是否对应于音节的持续时间(50-600毫秒,平均= 182毫秒)。



关于音节序列的模型估计是由音节单位提供的,这些音节单位与伽玛单位一起生成预期的频谱时态模式(模型运行的结果),并将其与输入频谱图进行比较。该模型将更新其对当前音节的估计,以最大程度地减少生成的声谱图和实际声谱图之间的差异。活动的水平在那些音节单位中增加,其声谱图对应于感觉输入,而在其他音节中则降低。在理想情况下,最小化实时预测误差会导致对应于输入音节的一个单独音节单元中的活动增加。



仿真结果



上面介绍的模型包括生理动机的theta振荡,该振荡由语音信号的慢幅度调制控制,并将有关音节的开始和持续时间的信息传输到γ分量。



该θ-γ链接将内部生成的预测与输入数据检测到的音节边界进行临时对齐(图像编号3中的选项A)。





图片#3



为了评估基于慢幅度调制的音节同步的相关性,将模型A与选项B进行了比较,在模型B中,θ活动不是通过振荡来建模,而是由伽马序列的自我重复产生的。



在模型B中,伽玛序列的持续时间不再受theta振荡的外源性(由于外部因素)控制,而是由内源性(由于内部因素)使用优选的伽马速率,当重复该序列时,将导致内部theta节奏的形成。如在θ振荡的情况下,伽马序列的持续时间具有在θ范围内的优选速度,其可以潜在地适应可变音节持续时间。在这种情况下,可以测试因重复伽玛序列而产生的θ节奏。



为了更准确地评估合成和以音节为单位转储累积数据的thetaγ的特定效果,制作了先前模型A和B的其他版本。



选项C和D的区别在于没有首选的伽马辐射速率。变体E和F与变体C和D的不同之处还在于,没有重置累积的音节数据。



在模型的所有变体中,只有A具有真实的theta-gamma关系,其中γ活性由theta模块确定,而在B模型中,gamma率是内生设置的。



有必要确定哪个版本的模型最有效,在存在共同输入数据(自然语句)的情况下将其工作结果进行比较。上图中的图表显示了每个模型的平均性能。



选项之间存在显着差异。与模型A和B相比,模型E和F(平均23%)以及模型C和D(15%)的性能明显较低。这表明在处理新的音节之前擦除有关前一个音节的累积数据是自然语音中音节流编码的关键因素。



选项A和B与选项C和D的比较显示,无论是刺激(A)还是内源性(B),θ-伽马关联都显着提高了模型性能(平均提高了8.6%)。



一般而言,使用不同版本模型的实验表明,当在每个伽马单元序列之后重设音节单元时(基于有关音节频谱结构的内部信息),并且通过θ-伽马耦合确定伽马辐射的速率时,其效果最佳。



因此,具有自然句子的模型的性能不取决于通过刺激驱动的θ振荡产生的音节发作的精确信号,也不取决于θ-γ关系的精确机理。



正如科学家们自己承认的那样,这是一个相当令人惊讶的发现。另一方面,刺激驱动的和内源的theta-gamma链接之间在性能上没有差异反映了一个事实,即自然语音中音节的持续时间非常接近模型的预期,在这种情况下,由输入数据直接驱动的theta信号将没有优势。



为了更好地理解这种意外的转折,科学家进行了另一系列的实验,但是压缩了语音信号(x2和x3)。行为研究表明,对以2倍压缩的语音的理解实际上并没有改变,但是当压缩3倍时,语音的理解就会大大下降。



在这种情况下,受刺激的θ-γ连接对于解析和解码音节可能非常有用。仿真结果如下所示。





图片4



如预期的那样,总体性能随压缩比的增加而下降。对于x2压缩,刺激和内源性theta-gamma关系之间仍然没有显着差异。但是在压缩x3的情况下,存在显着差异。这表明,与内生地设定theta速度相比,刺激theta-gamma链接的刺激驱动的theta摆动对音节编码过程更有利。



因此,可以用相对固定的内源theta发生器来处理自然语音。但是对于更复杂的输入语音信号(即,当语音速率不断变化时),需要一个受控的theta生成器,该生成器为γ编码器提供有关音节的准确时间信息(音节开始和音节持续时间)。



模型准确识别输入句子中的音节的能力未考虑各种比较模型的可变复杂性。因此,对每个模型都评估了贝叶斯信息准则(BIC)。该标准定量地确定了模型的准确性和复杂性之间的折衷(图像5)。





5号图像



A的BIC值最高。模型A和B的先前比较无法准确地区分它们的性能。但是,由于有了BIC准则,很明显,与没有由刺激驱动的theta振荡的模型(模型B)相比,选项A提供了更加自信的音节识别。



为了更详尽地了解这项研究的细微差别,我建议您调查一下科学家其他材料



结语



总结以上结果,可以说该模型的成功取决于两个主要因素。第一个也是最重要的一个是基于有关音节内容的模型信息(在这种情况下,它是其频谱结构)重置累积数据。第二个因素是theta和gamma过程之间的关系,可确保在theta循环中包含伽马活动,这与音节的预期持续时间相对应。



在其核心部分,开发的模型模仿了人类大脑的功能。进入系统的声音由θ波调制,让人联想到神经元的活动。这使您可以定义音节的边界。此外,更快的伽马波有助于对音节进行编码。在此过程中,系统会提供可能的音节,并在必要时调整选择。系统在第一级和第二级(θ和伽马)之间跳转,检测到正确的音节版本,然后清零以开始下一个音节的处理。



在实际测试中,可以成功解密2888个音节(使用自然语言220句,使用英语)。



这项研究不仅结合了两种相反的理论,将它们作为一个单独的系统付诸实践,而且还使人们能够更好地理解我们的大脑如何感知语音信号。在我们看来,我们是“按原样”感知语音,即 没有任何复杂的支持流程。但是,根据模拟结果,事实证明,神经theta和伽马振动使我们的大脑能够根据所形成的语音感知做出小的预测,以预测我们听到的哪个音节。



谁说什么,但人的大脑有时似乎比未开发的宇宙角落或世界海洋的绝望深处更加神秘和不可理解。



谢谢大家的关注,保持好奇心,祝您工作愉快。:)



一些广告



感谢您与我们在一起。你喜欢我们的文章吗?想看更多有趣的内容吗?通过下订单或向朋友推荐,为开发人员提供云VPS,最低价格为4.99美元,这是我们为您发明的入门级服务器 独特类似物:关于VPS(KVM)E5-2697 v3(6核)的全部真相10GB DDR4 480GB SSD 1Gbps从$ 19还是如何划分服务器?(RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。



戴尔R730xd在阿姆斯特丹的Equinix Tier IV数据中心便宜2倍吗?在荷兰,我们有2台Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100电视戴尔R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99起!阅读有关如何构建bldg的基础结构的信息。与使用服务器类的戴尔R730xd E5-2650 v4一分钱花费9000欧元吗?



All Articles