您现在的位置是:首页 >综合热点 > 2021-04-24 22:08:36 来源:

亚马逊的神经TTS可以只用几个小时的录音来模拟说话风格

厌倦了Alexa沉稳,单调的语调?好吧,多亏了一种新的人工智能(AI)技术,亚马逊可能很快就能够迅速将新的演讲风格推广到其语音助手。

在一篇新发表的论文(“ 序列到序列神经TTS的数据减少效应 ”)和随附的博客文章中,西雅图公司今天详细介绍了一种可以学习采用新口语的文本到语音转换(TTS)系统。只需几个小时的培训,就像新闻播报员那样。传统方法需要聘请配音演员以目标风格阅读集体数十小时。

亚马逊的神经TTS可以只用几个小时的录音来模拟说话风格

“对于用户而言,神经网络产生的合成语音听起来比通过连接方法产生的语音更自然,这种方法将存储在音频数据库中的短语音片段串联起来,”亚马逊应用科学经理特雷弗伍德写道。“随着[我们的系统]提供的灵活性增加,我们可以轻松改变合成语音的说话风格。”

亚马逊的AI模型 - 它称为神经TTS,或简称NTTS - 由两部分组成。第一个是转换音素的序列的生成神经网络-即与另一个区分开一个字,如声音的感知上不同的单元 P,B,d,和 吨在 垫和 轻拍 -到谱图的一个序列,一个视觉声音频率随时间变化的表示。第二个是声码器,它可以转换那些频谱图 - 特别是梅谱图,根据伍德的说法,“强调人脑在处理语音时使用的特征” - 成为一个连续的音频信号。

Wood指出,现象到光谱图解释器网络是序列到序列,这意味着它不仅仅从相应的输入计算输出,而是考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家还使用现象序列和相应的梅谱图序列对其进行了训练,后者确定了训练示例中使用的特定说话风格。

模型的输出被送入声码器,产生高质量的语音波形。独特的是,声码器可以从任何扬声器中获取梅谱图,无论它们是否在训练时间内被看到,并且它不需要使用扬声器编码。

结果?一种模型训练方法,结合了大量中性风格的语音数据,只需几小时的所需风格的补充数据,以及能够区分语音元素的AI系统,既独立于说话风格,又独特于风格。

“当在操作过程中呈现说话式代码时,网络会预测适合该风格的韵律模式,并将其应用于单独生成的,风格不可知的表示,”Wood解释道。“通过相对较少的额外训练数据实现的高质量,可以快速扩展演讲风格。”

根据亚马逊的研究,听众倾向于使用NTTS产生的声音通过连接合成产生的声音。

“对中性NTTS的偏好反映了由于神经生成方法而广泛报道的一般语音合成质量的增加,”伍德写道。“NTTS新闻播音员语音的进一步改进反映了我们系统能够捕捉与文本相关的风格。”

这项新的研究是在Alexa的耳语模式首次亮相之后进行的,这使得Alexa能够通过窃窃私语来回应低声说话。