MIT最新成果:利用AI系统PixelPlayer改变特定乐器音量
2018年07月06日 由 浅浅 发表
197881
0
业余和专业音乐人都可能为视频花费数小时,以弄清楚如何播放他们喜欢的歌曲的某些部分。但是,如果有一种方法可以播放视频并提取出你唯一想听到的乐器呢?
这是麻省理工学院计算机科学与人工智能实验室(CSAIL)新的AI项目的结果:一个深度学习系统,可以观看音乐表演的视频,分离特定乐器的声音,使它们更响亮或更柔和。
该系统是自我监督的,不需要手动注释乐器是什么或它们听起来像什么。
经过超过60小时的视频训练,PixelPlayer系统可以观看前所未有的音乐表演,识别像素级别的特定乐器,并提取与这些乐器相关的声音。
[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/07/Editing-Music-in-Videos-Using-AI.mp4"][/video]
例如,它可以播放大号和小号的视频播放超级马里奥兄弟主题曲,并分离出与每种乐器相关的声波。
研究人员表示,改变单个乐器音量的能力意味着,在未来,像这样的系统可能有助于工程师提高旧音乐会录像带的音质。你甚至可以想象制作人采用特定的乐器部件并预览,使它们听起来与其他乐器声音一样(比如将电吉他换成木吉他)。
在一篇新论文中,该团队证明PixelPlayer可以识别超过20种常见乐器的声音。第一作者Hang Zhao表示,如果系统有更多的训练数据,系统将能够识别更多的仪器,尽管它仍然可能无法处理仪器子类之间的微妙差异(例如中音萨克斯与男高音)。
以前分离声源的努力主要集中在音频上,这通常需要广泛的人类标签。相比之下,PixelPlayer引入了视觉元素,研究人员称其不需要人类标签,因为视觉提供了自我监督。
该系统首先定位产生声音的图像区域,然后将输入声音分成一组表示每个像素的声音的组件。
“我们期待一种最好的情况,我们可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生Zhao表示,“我们很惊讶我们实际上可以在像素级别空间定位仪器。能够做到这一点开辟了许多可能性,例如只需点击一下视频即可编辑单个乐器的音频。”
PixelPlayer使用深度学习的方法,这意味着它使用已经在现有视频上训练的神经网络在数据中找到模式。具体来说,一个神经网络分析视频的视觉,一个分析音频,第三个“合成器”将特定的像素与特定的声波相关联以分离不同的声音。
PixelPlayer使用自我监督深度学习的事实意味着麻省理工学院的团队并没有明确地理解它如何学习哪些乐器制作哪种声音。
然而,Zhao说系统似乎认识到了音乐的实际元素。例如,某些谐波频率似乎与小提琴等乐器相关,而快速脉冲状模式则与木琴等乐器相对应。
像PixelPlayer这样的系统甚至可以用在机器人上,以更好地理解其他物体所产生的环境声音,例如动物或车辆。