您现在的位置是:首页 >要闻 > 2020-11-30 15:03:39 来源:

计算模型通过预测对语音进行解码

导读 大脑通过识别音节来分析口语。日内瓦大学(UNIGE)和不断发展的语言国家能力研究中心(NCCR)的科学家设计了一种计算模型,该模型再现了中枢神

大脑通过识别音节来分析口语。日内瓦大学(UNIGE)和不断发展的语言国家能力研究中心(NCCR)的科学家设计了一种计算模型,该模型再现了中枢神经系统执行此操作的复杂机制。该模型汇集了两个独立的理论框架,使用等效于大脑活动产生的神经元振动来处理关联语音的连续声流。

该模型根据称为预测编码的理论运行,从而大脑通过不断尝试根据候选假设(此模型中的音节)预测感觉信号来优化感知。结果模型在《自然通讯》杂志上进行了描述,它帮助实时识别了以自然语言说出的数百个句子中包含的数千个音节。这已经证实了这样的想法,即神经元振动可以用来协调我们听到的音节的流动与大脑的预测。

UNIGE医学院基础神经科学系教授,不断发展的语言NCCR联合主任Anne-Lise Giraud说:“脑活动产生了可以用脑电图测量的神经元振荡。” 这些是电磁波,是由整个神经元网络的相干电活动产生的。有几种类型,根据它们的频率定义。它们被称为α,β,θ,δ或γ波。这些节奏单独或叠加使用,与不同的认知功能相关,例如感知,记忆,注意力,机敏性等。

但是,神经科学家尚不知道他们是否积极参与这些功能以及如何发挥作用。在2015年发表的一项较早的研究中,Giraud教授的团队表明,theta波(低频)和gamma波(高频)相互配合,对音节中的音流进行排序,并分析其内容,以便对其进行识别。

总部位于日内瓦的科学家基于这些生理节律开发了一种突跳的神经网络计算机模型,该模型在现场(在线)音节排序方面的性能优于传统的自动语音识别系统。

音节的节奏

在他们的第一个模型中,theta波(介于4赫兹和8赫兹之间)使得跟随系统感知的音节节奏成为可能。伽马波(大约30赫兹)用于将听​​觉信号切成较小的切片并进行编码。这会产生一个链接到每个声音序列的“音素”配置文件,可以将其与后一个音节进行比较,并与已知音节库进行比较。这种类型的模型的优点之一是,它可以自发地适应语音速度,语音速度可能因人而异。