OpenAI秘密研发Q*，向通用人工智能迈进

2023年11月24日由 samoyed 发表 509 0

据报道，OpenAI正在研究一个名为Q*（发音为Q-Star）的项目，能够解决不熟悉的数学问题。这一新的发展是在Andrej Karpathy最近集中化与去中心化的思想背景下进行的。

s-2

OpenAI的一些人认为，Q*可能是实现人工智能（AGI）的一个重大步骤。同时，这个新模型在一些AI安全研究人员中引起了担忧，特别是在最近几周内OpenAI内部传播的模型演示之后，加速了技术的进步，据《信息》报道。

该模型是由OpenAI的首席科学家Ilya Sutskevar和其他顶尖研究人员Jakub Pachocki和Szymon Sidor创建的。

有趣的是，这一新的发展是在Andrej Karpathy最近在X上发布帖子，说他最近一直在思考集中化和去中心化。

Karpathy主要谈论的是构建一个人工智能系统，其中涉及集中化和去中心化决策和信息的权衡。为了获得最佳结果，你必须平衡这两个方面，而Q-learning似乎完美地适应了这个方程式，使所有这些成为可能。

什么是Q-learning？

专家们认为Q*是建立在Q-learning原则之上的，这是人工智能领域，特别是在强化学习领域的一个基础概念。Q-learning的算法被归类为无模型强化学习，并且被设计来理解一个特定状态下一个动作的价值。

Q-learning的最终目标是找到一个最优策略，它定义了在每个状态下采取的最佳行动，最大化随时间累积的奖励。

Q-learning是基于Q函数的概念，又称为状态-动作价值函数。这个函数运作有两个输入：一个状态和一个动作。它返回一个估计，这个估计是从那个状态开始，采取那个动作，然后遵循最优策略期望的总奖励。

在简单的实例中，Q-learning维护一张表（称为Q表），其中每一行代表一个状态，每一列代表一个动作。该表中的条目是Q值，随着代理通过探索和开发而学习，这些值被更新。

文章来源：https://analyticsindiamag.com/openai-secretly-works-on-q-inches-closer-towards-agi/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI终局之战

下一篇 OpenAI的PPO算法：强化学习的新标杆，AGI的新希望

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市