用音频数据补充视觉信息,帮助AI在3D迷宫中导航
2019年05月14日 由 张江 发表
824948
0
人类主要依赖视觉导航,但声音对于导航来说可能同样重要。
有研究已经表明,人们可以学习通过音频信号的音量,方向和速度跟随微妙的线索。
受此启发,东芬兰大学的科学家最近发表了一篇论文“Do Autonomous Agents Benefit from Hearing?”,其中指出,人工智能系统可以通过声音补充视觉数据。初步结果表明,这种方法可以提高智能体在3D迷宫中完成目标的能力。
只使用视觉信息进行学习对于智能体来说并不总是那么容易,例如,在有很多房间且智能体和目标之间没有直接视线的情况下,智能体很难仅使用视觉信息到达目标。因此,使用音频功能可以提供有价值的信息。
研究人员使AI采用深度Q网络的形式,这种模型可以灵活地处理不同类型的数据(即图像像素和音频),并且已经成功应用于Atari游戏。他们在VizDoom上训练它,这是一个建立在第一人称射击游戏Doom上的数字研究环境,有两种不同的音频特征:音高和原始样本。
团队解释:“我们将关于环境(到目标的距离)的信息编码到样本的间距中。然后,将样本与图像一起提供给智能体。由于距离目标的距离是以样本的整体间距编码的,因此这些特征可以很容易地被消化以获得有用信息(更高的间距即更接近目标)。这些特征可作为一种完整性检查,确保提供有关目标距离的信息对智能体有益。”
在运行自定义VizDoom场景的实验中,研究者要求智能体在迷宫中航行,向左,向右,向前或向后,然后转向各个房间。智能体最初采取完全随机的行动,但随着时间的推移,当它们获得实现目标的奖励时,表现得到了改善。
团队测试了两种不同类型的设置:一种是将智能体随机放置在一个房间中,另一种是随机放置在任意五个房间中的一个。
前者与仅使用视觉相比,与只使用视觉信息相比,同时使用音高和原始音频的视觉信息在每次测试中得到更好的平均奖励,在后者的情况下,音频特征与视觉一起使得智能体能够在大多数时间达到目标。
“仅使用视觉的平均成功率为43%。但是,使用原始音频的视觉增强和使用音高的视觉增强的平均成功率分别为87%和86%,同样仅使用视觉信息到达目标所需的平均步数是1420,而在视觉上添加互补的原始音频和音高会将步数分别减少到751和614。”
在未来的实验中,团队计划将在不同的环境中进行实验,并进行视频游戏以外的测试。
论文:
arxiv.org/pdf/1905.04192.pdf