据报道,OpenAI正在研究一个名为Q*(发音为Q-Star)的项目,能够解决不熟悉的数学问题。这一新的发展是在Andrej Karpathy最近集中化与去中心化的思想背景下进行的。
OpenAI的一些人认为,Q*可能是实现人工智能(AGI)的一个重大步骤。同时,这个新模型在一些AI安全研究人员中引起了担忧,特别是在最近几周内OpenAI内部传播的模型演示之后,加速了技术的进步,据《信息》报道。
该模型是由OpenAI的首席科学家Ilya Sutskevar和其他顶尖研究人员Jakub Pachocki和Szymon Sidor创建的。
有趣的是,这一新的发展是在Andrej Karpathy最近在X上发布帖子,说他最近一直在思考集中化和去中心化。
Karpathy主要谈论的是构建一个人工智能系统,其中涉及集中化和去中心化决策和信息的权衡。为了获得最佳结果,你必须平衡这两个方面,而Q-learning似乎完美地适应了这个方程式,使所有这些成为可能。
专家们认为Q*是建立在Q-learning原则之上的,这是人工智能领域,特别是在强化学习领域的一个基础概念。Q-learning的算法被归类为无模型强化学习,并且被设计来理解一个特定状态下一个动作的价值。
Q-learning的最终目标是找到一个最优策略,它定义了在每个状态下采取的最佳行动,最大化随时间累积的奖励。
Q-learning是基于Q函数的概念,又称为状态-动作价值函数。这个函数运作有两个输入:一个状态和一个动作。它返回一个估计,这个估计是从那个状态开始,采取那个动作,然后遵循最优策略期望的总奖励。
在简单的实例中,Q-learning维护一张表(称为Q表),其中每一行代表一个状态,每一列代表一个动作。该表中的条目是Q值,随着代理通过探索和开发而学习,这些值被更新。