OpenAI的产品副总裁Peter Welinder最近在X上发表了一篇文章,“大家都在研究Q-learning,等他们听说PPO(proximal policy optimisation)的时候,就会惊讶了。”
什么是PPO?
PPO是一种强化学习算法,用于训练人工智能模型在复杂或模拟的环境中做出决策。
有趣的是,PPO在2017年成为OpenAI的默认强化学习算法,因为它使用方便,性能良好。
PPO的名字中的“近端(proximal)”指的是应用于策略更新的约束。这种约束有助于防止策略发生显著的变化,从而有利于更稳定和可靠的学习。
OpenAI使用PPO是因为它在优化顺序决策任务的策略方面非常有效。
此外,PPO在探索和利用之间取得了平衡,这在强化学习中至关重要,它通过逐步更新策略,同时确保变化是有约束的。
OpenAI在各种用例中采用PPO,从训练模拟环境中的智能体,到掌握复杂的游戏。
PPO的多功能性使它能够在智能体必须学习一系列动作来实现特定目标的场景中表现出色,使它在机器人、自主系统和算法交易等领域具有价值。
很有可能,OpenAI正打算通过游戏和模拟环境,借助PPO来实现AGI。 有趣的是,今年早些时候,OpenAI收购了Global Illumination,以在模拟环境中训练智能体。