Facebook研究:利用神经网络根据音乐预测音乐家的动作
2018年06月22日 由 浅浅 发表
15556
0
为了使用人工智能来帮助教人们如何演奏乐器,研究调查了音乐信号和手指之间的相关性是否可以通过计算来预测。我们证明它的确可以预测,这也是首次对这样的想法进行测试。
我们的目标是创建一个动画,它的手像钢琴师或小提琴手那样,通过听音频来移动。我们的研究引入了一种输入小提琴或钢琴音乐的方法,并输出一个进一步的骨骼预测视频,并且我们成功地证明了可以预测自然身体动态。这项研究在CVPR会议上提出。论文网址:research.fb.com/publications/audio-to-body-dynamics/
研究挑战
从音乐信号预测身体运动是一个非常具有挑战性的计算问题。为了解决这个问题,我们需要一套好的视频训练集,我们需要能够准确地预测这些视频中的身体姿势,并且我们的算法需要能够找到音乐和身体之间的关联。
没有可用于此目的的训练数据。传统上,从视频序列(而不是音频)中,对自然身体运动的最好的预测是在实验室中创造的动作捕捉序列。为了复制传统的方法,需要把一个钢琴家带到实验室,让他们用手指和身体关节连接的传感器来演奏几个小时。这很难执行,也不容易推广。
取而代之的是,我们利用在线播放的高度熟练的音乐家的公开视频,这也可能会使数据更加多样化。我们从互联网上收集了3.6小时的小提琴和4.4小时的钢琴独奏音乐会,并通过检测上半身和每个视频的每一帧中的手指来处理视频。
然后,我们建立了一个长短期记忆(LSTM)神经网络,用于了解音频特征与身体骨骼标志之间的相关性。预测点被应用到装配好的化身上以创建动画,最终的输出是一个根据音频输入移动的化身。
方法概述:(a)我们的方法作为音频信号的输入获取,例如钢琴音乐,(b)是我们LSTM送入网络预测身体运动点,(c)然后用于动画化身并显示它在钢琴上播放输入音乐(虚拟形象和钢琴是模型,其余则是公寓的真实背景)。
输出的骨骼产生有趣的身体动态。为了最好地体验我们的结果,请观看视频。
[video width="220" height="480" mp4="https://www.atyun.com/uploadfile/2018/06/IMG_1091.mp4"][/video]
[video width="220" height="480" mp4="https://www.atyun.com/uploadfile/2018/06/IMG_1092-1.mp4"][/video]
潜在的应用
这项研究受到华盛顿大学创建的一个系统的启发,该系统可以发现一个人的言语与嘴唇如何移动之间的相关性。我们假设可以从音频信号预测身体姿势,这显示出很有希望的初步结果。我们相信音频与人体之间的相关性有可能在VR,AR和识别中有各种应用。
一个潜在的应用是使用AR来教人们如何演奏乐器。人们可能会从世界上最好的钢琴家那里学习,因为我们正在使用专业钢琴家进行视频培训。当在AR中显示体验时,人们可以3D形式在化身周围漫游,并放大手指以查看正在做什么动作。我们非常兴奋地展示用AI能够帮助人们通过掌握动作,来表演和创作音乐。