您现在的位置是:首页 >要闻 > 2020-11-30 15:03:38 来源:

通过学习音乐家的肢体语言来识别旋律

导读 我们用耳朵听音乐,也用眼睛听音乐,欣赏钢琴演奏者的手指在琴键上飞舞,小提琴演奏者的弓弦越过琴弦。当耳朵无法分辨两种乐器时,眼睛通常

我们用耳朵听音乐,也用眼睛听音乐,欣赏钢琴演奏者的手指在琴键上飞舞,小提琴演奏者的弓弦越过琴弦。当耳朵无法分辨两种乐器时,眼睛通常会通过将每个乐手的动作与每个声部的节拍相匹配来进行调整。

MIT-IBM Watson AI Lab开发的一种新的人工智能工具利用计算机的虚拟眼睛和耳朵来分离相似的声音,这些声音即使对于人类也很难区分。该工具通过将各个音乐家的动作(通过其骨骼关键点)与各个部分的速度进行匹配来改进早期迭代,从而使听众可以在多个长笛或小提琴中隔离单个长笛或小提琴。

这项工作的潜在应用范围包括混音,增加录音中的乐器音量,以及减少导致人们在视频会议通话中互相交谈的混乱情况。这项工作将在本月的虚拟计算机视觉模式识别会议上进行介绍。

该研究的主要作者,该实验室的IBM研究人员Chuang Gan说:“人体关键点提供了强大的结构信息。” “我们在这里使用它来提高AI收听和分离声音的能力。”

在这个项目以及其他类似项目中,研究人员已经利用同步音视频轨道来重现人类的学习方式。通过多种感觉模式学习的AI系统可能能够以更少的数据更快地学习,而无需人类为每个现实世界的表示添加讨厌的标签。麻省理工学院教授,​​该研究的共同资深作者安东尼奥·托拉尔巴(Antonio Torralba)说:“我们从所有的感官中学习。“多传感器处理是可以执行更复杂任务的嵌入式智能和AI系统的先驱。”