GAIA：新的通用人工智能基准测试工具

2023年12月04日由 samoyed 发表 1265 0

隶属于人工智能初创公司Gen AI、Meta、AutoGPT、HuggingFace和Fair Meta的一组研究人员开发了一种基准测试工具，供人工智能助手制造商使用，特别是那些生产基于大型语言模型的产品的制造商，以测试其作为潜在通用人工智能（AGI）应用的应用，他们将其命名为GAIA。他们写了一篇论文，描述了他们的工具，以及介绍如何使用它。这篇文章发布在arXiv预印本服务器上。

ball-63527_1280

在过去的一年里，人工智能领域的研究人员一直在私下和社交媒体上讨论人工智能系统的能力。一些人认为人工智能系统非常接近AGI，而另一些人则认为相反的情况更接近事实。但相同的是所有人都认为，这样的系统将在某个时刻与人类的智力相匹敌，甚至超过人类的智力。唯一的问题是什么时候。

在这项新的努力中，研究团队指出，为了达成共识，如果出现真正的AGI系统，就必须建立一个评级系统来衡量它们的智力水平。他们进一步指出，这样一个系统必须从一个基准开始，这就是他们在论文中提出的。

ai-researchers-introdu

该团队创建的基准包括向未来的人工智能提出的一系列问题，并将答案与随机的一组人类提供的答案进行比较。在创建基准时，该团队确保这些问题不是人工智能系统往往得分很高典型的人工智能查询。

相反，它们提出的问题往往是人类很容易回答但计算机很难回答的问题。在许多情况下，要想找到研究人员设计的问题的答案，需要经过多个步骤的工作和“思考”。例如，他们可能会问一个特定网站上特定的问题，比如，“根据维基百科报道的美国农业部标准，一品脱冰淇淋的脂肪含量是高于还是低于标准？”

研究团队测试了他们合作的人工智能产品，发现没有一款产品接近通过基准，这表明该行业目前可能不像一些人想象的那样接近开发真正的AGI。

文章来源：https://techxplore.com/news/2023-12-ai-gaia-benchmark-tool-general.html

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果的创新让失声者重新发声

下一篇百度智能云发布文心一言打造AI原生应用“超级助理”

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术