随着技术的不断进步,人工智能正在成功地让计算机通过模仿人类智力来以类似于人类的方式思考和学习。人工智能、机器学习(ML)和深度学习的最新进展已经帮助改善了多个领域,包括医疗保健、金融、教育等等。近来备受关注的大型语言模型(LLM)因其惊人的潜能而广受瞩目,它们在从问答、文本摘要到代码生成和代码补全等各项任务中均表现出色。
LLM是采用了称为增强学习的机器学习范式进行微调的。在增强学习中,一个智能体通过与周围环境的互动来学习决策技能。它试图通过在环境中采取行动来最大化随时间累积的奖励信号。基于模型的增强学习(RL)近来已取得进展,并在各种需要规划的情景中显示出了前景。然而,这些成功还局限在完全可观察和确定性的情况下。
在最近的研究中,DeepMind 的研究小组提出了一种使用矢量量化模型进行规划的新策略。这种方法旨在解决随机和部分可观察环境中的问题。该方法包括使用状态 VQVAE(矢量量化变分自编码器)和转换模型将未来观测编码为离散的潜在变量。这使得它与随机或部分可观察的上下文相关,使得规划未来的观测和行动成为可能。
该团队分享了使用离散自编码器的方法,以便能够捕捉随机设置中一个动作的不同可能结果。自编码器是一种神经网络设计,它接受输入数据,将其编码成潜在表示形式,然后解码回原始形式。使用离散自编码器使得可以表示来自智能体行为在随机情境中产生的多种不同结果。
团队使用了一种随机版的蒙特卡洛树搜索来简化这类情境中的规划。蒙特卡洛树搜索是一种在规划和决策过程中做决策的流行方法。在这种情况下,随机变体允许考虑环境的不确定性。在规划过程中已经加入了表示环境可能反应的离散潜变量,除了智能体的行为。这种全面的方法试图捕捉由部分可观测性和随机性带来的复杂性。
该团队已经评估了这种方法,它表明在随机版本的国际象棋中胜过了一个离线变体的 MuZero,这是一个著名的RL系统。从这个视角看,对手引入系统的不确定性,并被视为环境的一个基本组成部分。该建议方法的可扩展性在DeepMind实验室的成功实施中得到了证明。在这个场景中观察到的积极结果已经证明了该方法在处理常规棋盘游戏之外的复杂和动态情境中的灵活性和有效性。
总之,这种基于模型的增强学习技术在部分可视、随机设置中扩展了全可视、确定性环境的有效性。离散自编码器和随机蒙特卡洛树搜索的版本显示了对不确定环境所呈现的复杂性的深刻理解,这提高了在实际应用中的性能。