人工智能领域的重大突破,控制自主机器人的新方法
2023年06月13日 由 Neo 发表
929819
0
在电影《壮志凌云:独行侠》中,由汤姆·克鲁斯扮演的独行侠,负责训练年轻的飞行员完成一项看似不可能的任务——驾驶他们的喷气式飞机深入到崎岖的峡谷中,飞得离地面如此之低,以至于无法被雷达探测到,然后以极端的角度快速爬升出峡谷,避开岩壁。剧透警告:在独行侠的帮助下,这些人类飞行员完成了他们的任务。
另一方面,一台机器则很难完成同样令人激动的任务。例如,对于一架自主飞行器来说,朝着目标最直接的路径与它需要做的为了避免与峡谷墙壁相撞或保持不被发现而做的事情相冲突。许多现有的人工智能方法无法克服这种冲突,被称为稳定-避障问题,并且无法安全地达到目标。
麻省理工学院(MIT)的研究人员开发了一种新技术,可以比其他方法更好地解决复杂的稳定-避障问题。他们的机器学习方法在安全性上超过现有的方法,同时在稳定性上提高了十倍。
在一个让独行侠都感到自豪的实验中,他们的技术有效地驾驶了一架模拟喷气式飞机通过一条狭窄的走廊,而没有撞到地面。
“这是一个长期存在、具有挑战性的问题。很多人都对它感兴趣,但不知道如何处理如此高维和复杂的动力学。”航空航天工程助理教授、信息与决策系统实验室(LIDS)成员、该论文的高级作者Chuchu Fan说。
Fan与该论文的第一作者、研究生Oswin So合作。该论文将于7月10日至14日在韩国举行的“机器人:科学与系统”会议上发表。
稳定-避障挑战
许多方法通过简化系统来解决复杂的稳定-避障问题,这样他们就可以用简单的数学来解决它,但是简化的结果往往不能适应真实世界的动力学。
更有效的技术是使用强化学习,这是一种机器学习方法,在这种方法中,智能体通过反复试验进行学习,并对使其更接近目标的行为给予奖励。但这里实际上有两个目标——保持稳定和避免障碍——找到正确的平衡是繁琐的。
麻省理工学院的研究人员将问题分解为两个步骤。首先,他们将稳定-避障问题重新定义为一个约束优化问题。在这种设置中,解决优化使智能体能够达到并稳定到其目标,这意味着它保持在一定区域内。通过应用约束,他们确保智能体避免障碍,So 解释说。
“但是深度强化学习并不是为了解决优化问题的极图形式而设计的,所以我们不能直接将它应用到我们的问题上。我们必须推导出适用于我们系统的数学表达式。一旦我们得到了这些新的推导,我们就将它们与其他方法使用的一些现有的工程技巧结合起来。”So 说。
争分夺秒
为了测试他们的方法,他们设计了一些不同初始条件的控制实验。例如,在一些模拟中,自主智能体需要在保持极端机动以避开与它相撞的障碍物的同时,达到并保持在目标区域内。
与几种基线相比,他们的方法是唯一能够在保持安全的同时稳定所有轨迹的方法。为了进一步推动他们的方法,他们用它来驾驶一架模拟喷气式飞机,就像人们在《壮志凌云》电影中看到的场景一样。喷气式飞机必须稳定在靠近地面的目标,同时保持非常低的高度并停留在狭窄的飞行走廊内。
这个模拟喷气式飞机模型是在2018年开源的,是由飞行控制专家设计的一个测试挑战。研究人员能否创建一个他们的控制器无法飞行的场景?但是这个模型太复杂了,很难处理,而且仍然不能处理复杂的场景,Fan 说。
研究人员的控制器能够防止喷气式飞机撞毁或失速,同时比任何基准方法都更好地稳定到目标。
将来,这项技术可能成为设计高动态机器人控制器的起点,这些机器人必须满足安全性和稳定性要求,例如自动送货无人机。或者它可以作为更大系统的一部分来实现。也许只有当汽车在雪路上打滑时,算法才会被激活,以帮助驾驶员安全地回到稳定的轨迹。
So 补充说,应对人类无法应对的极端情况才是他们方法真正的亮点。
“我们应该努力为强化学习提供安全和稳定性保证,这些保证将在我们将这些控制器部署到关键任务系统时给我们提供信心。我们认为这是实现这一目标的第一步。”他说。
接下来,研究人员想要改进他们的技术,使其在解决优化问题时更好地考虑不确定性。他们还想研究当算法部署到硬件上时效果如何,因为模型和真实世界中的动力学之间会有不匹配。
“Fan教授的团队改进了安全至关重要的动力系统的强化学习性能。他们创建的控制器不仅可以达到目标,还可以确保系统能够安全地达到目标并无限期地停留在那里,”纽约州立大学石溪分校计算机科学系助理教授 Stanley Bak 说。“他们改进的公式允许成功生成用于复杂场景的安全控制器,包括部分由空军研究实验室 (AFRL) 的研究人员设计的17-state非线性喷气式飞机模型,该模型结合了带有升力和阻力表的非线性微分方程。”
来源:https://techxplore.com/news/2023-06-ai-based-approach-autonomous-robots.html