剑桥大学研究人员首次使用强化学习训练AI自动驾驶
2018年07月10日 由 浅浅 发表
801126
0
剑桥大学工程师们用15到20分钟教会了AI有关驾驶的基本知识,而这个过程可能会让人类花费几十个小时。
Wayve由剑桥大学工程系的研究人员创立,采用了强化学习的技术来实现这一壮举。
这是一种试错的算法,正确的决策会让AI不间断的驾驶,而错误则会被汽车的安全驾驶员纠正。
随着测试的进行,算法不会再犯安全驾驶员纠正过的任何错误。
根据Wayve团队的说法,AI在第一次上公路后,在15到20分钟内学会驾驶和转弯,同时留在自己的车道内。
Wayve发布了最新测试视频,声称这是第一次在自动驾驶汽车中使用强化学习。
[video width="640" height="360" mp4="https://www.atyun.com/uploadfile/2018/07/640x360_MP4_1279020422547421114.mp4"][/video]
这段视频显示了最初的驾驶过程,自动驾驶汽车在研究人员介入之前就在路上突然转向。
与Waymo和优步等自动驾驶汽车使用的“大型模型,花哨的传感器和无穷无尽的数据”不同,位于剑桥的Wayve测试的雷诺使用安装在车辆挡风玻璃上方的单个摄像机装置。
由此设置生成的单个图像输入由一个板载GPU处理。
Wayve联合创始人Amar Shah描述了公司方法背后的理念,即赋予汽车“更强的大脑”,而不一定是更复杂的传感器。
Shah认为,“自动驾驶缺失的部分是智能算法,而不是传感器,规则和地图,”
“人类具有在现实世界中执行复杂任务的能力,因为我们的大脑使我们能够快速学习并在我们的许多经历中传授知识。我们希望为我们的车辆提供更好的大脑,而不是更多的硬件。”
在一篇“在一天内学会开车”的官方博客文章中,Wayve将教学算法与教育孩子如何学习骑自行车的方法进行了比较。
研究人员表示,“你不需要公园的密集3D地图,也不需要头部高保真激光。你不需要一长串规则就可以在自行车上保持平衡。”
“成年人只是给了你一个安全的环境,让你学习如何将你看到的东西映射到你应该做的事情,成功骑自行车。”
Wayve认为其试错法将提高自动驾驶车辆的改进率,因为它不需要将所有内容预先编程到系统中的底层代码中。
图(a)显示了在安全驾驶员对训练集的数量进行接管之前,Wayve车辆行驶的距离。蓝线(ddpg)显示了那些只使用算法和安全驱动程序进行纠正的文本,而橙色的线(ddpg+vae)显示了在使用摄像头的视觉输入时,Wayve汽车的进展。使用这种方法,汽车能够通过不到10个单独的训练集达到目标。
它还使自动驾驶车辆随着时间的推移而改善,因为他们在路上获得越来越多的经验。
总部位于英国的公司Wayve声称,“自动驾驶问题的手工设计方法在性能上已达到了上限,Wayve正试图通过更智能的机器学习来解锁自动驾驶功能。”
该团队希望通过扩展系统来处理更复杂的情况,包括交通信号灯,环形交叉路口和交叉路口,从而改进这一测试。