您现在的位置是:首页 >市场 > 2020-11-20 16:45:28 来源:

生成手势以伴随虚拟座席语音的模型

虚拟助手和机器人正变得越来越复杂,具有交互性并且类似于人。但是,要完全复制人类的交流,人工智能(AI)代理不仅应该能够确定用户在说什么并产生适当的响应,还应该模仿他们的说话方式。

卡内基梅隆大学(CMU)的研究人员最近进行了一项研究,旨在通过产生自然手势来伴随他们的语音来改善虚拟助手和机器人与人之间的通信方式。他们的论文预先发表在arXiv上并准备在2020年欧洲计算机视觉会议(ECCV)上发表,介绍了Mix-StAGE,这是一种新模型,可以产生不同风格的共语音手势,最适合与之对应的语音。演讲者和他/她在说什么。

进行这项研究的研究人员之一Chaitanya Ahuja对TechXplore说:“想象一下您正在通过虚拟现实耳机在虚拟空间中与朋友交流的情况。” “耳机只能听到您的声音,而看不到您的手势。我们模型的目标是预测伴随语音的手势。”

当人们与他人交流时,他们通常会有独特的手势方式。Ahuja和他的同事们希望创建一个可将这些个体差异考虑在内的共语音手势生成模型,以产生与说话人的声音和个性相一致的手势。

Ahuja说:“ Mix-StAGE背后的关键思想是为许多不同样式的手势学习一个通用的手势空间。” “此手势空间包含所有可能的手势,这些手势按样式分组。Mix-StAGE的后半部分学习如何在与输入语音信号同步的同时预测任何给定样式的手势,这一过程称为样式转移。”

Mix-StAGE受过训练,可以为多个说话者产生有效的手势,学习每个说话者的独特风格特征,并产生与这些特征匹配的手势。另外,该模型可以为另一位演讲者的语音生成一个演讲者风格的手势。例如,它可以生成与说话者A所讲的手势相符的手势,而手势通常由说话者B使用。

Ahuja解释说:“与以前的方法要求每种样式都需要一个单独的模型不同,我们能够教一个单一的模型(即涉及较少的内存)来代表许多手势样式。” “我们的模型利用手势样式之间的相似性,同时记住每个人(即每种样式)的独特之处。”

在最初的测试中,由Ahuja和他的同事开发的模型表现出色,可以产生不同样式的逼真的有效手势。此外,研究人员发现,随着他们增加用于训练Mix-StAGE的扬声器的数量,其手势生成准确性大大提高。将来,该模型可以帮助增强虚拟助手和机器人与人类进行交流的方式。

为了训练Mix-StAGE,研究人员编辑了一个名为Pose-Audio-Transcript-Style(PATS)的数据集,其中包含25个说话的人的语音记录,总计250个小时以上,并且手势匹配。该数据集很快将被其他研究团队用于训练其他手势生成模型。

“在我们目前的研究中,当生成手势时,我们专注于语音的非语言部分(例如,韵律),” Ahuja说。“我们为下一步感到兴奋,我们还将语音的言语部分(即语言)作为另一种输入。假设是语言将有助于特定类型的手势,例如图标或隐喻手势,其中说话的意思可能是最重要的。”