OpenAI开源SimpleQA新基准，测试AI语言模型回答准确性

2024年10月31日由 neo 发表 381 0

近日，一项由OpenAI进行的新研究揭示了AI语言模型在回答事实问题时的局限性。该研究利用OpenAI自家的SimpleQA基准测试，对多个先进的AI语言模型进行了评估，结果却令人惊讶。

faulty_neural_network-1200x673

SimpleQA测试涵盖了科学、政治和艺术三个领域的4,326个问题，每个问题都经过精心设计，确保只有一个明确的正确答案。为了验证答案的准确性，还邀请了两位独立的评审人员进行审核。

simpleqa_benchmark_openai-3-e1730312956780

然而，即便是OpenAI的最佳模型o1-preview，在测试中的成功率也仅为42.7%。紧随其后的是GPT-4o模型，其正确率为38.2%，而更小的GPT-4o-mini模型的准确率更是低至8.6%。同样参与测试的Anthropic公司的Claude模型表现也不尽如人意，其顶级模型Claude-3.5-sonnet的正确率仅为28.9%，错误率高达36.1%。

simpleqa_benchmark_openai-1-e1730312988592

这项测试专门衡量的是AI模型在训练过程中获得的知识，而不涉及模型在获得额外上下文、互联网访问或数据库连接时提供正确答案的能力。因此，研究人员强调，用户应将AI模型视为信息处理器，而非独立的知识来源。为了获得最佳结果，最好提供可靠的数据，而不是仅仅依赖AI模型内置的知识。

这一研究结果引发了广泛的担忧。许多人，尤其是学生，正在将这些AI系统作为独立的研究和学习工具，因为他们相信这些系统大多数情况下能给出准确答案。然而，测试结果表明，这种做法存在很大的风险。数据显示，AI模型在独立进行事实查证或验证方面根本不够可靠。

此外，研究还发现，AI语言模型在回答问题时明显高估了自己的能力。当研究人员要求模型对自己的答案进行评分时，AI模型总是给出过高的准确性得分。为了系统地衡量这种过度自信，研究人员让模型对每个问题重复回答多次，结果发现，即使模型重复给出相同的答案，其实际成功率仍然低于模型对自身性能的预测。

这一发现进一步加剧了人们对AI语言模型可靠性的担忧。许多专家呼吁，在使用AI模型时，应保持谨慎，并结合其他可靠的信息来源进行验证。同时，研究人员也将继续努力，提高AI模型的准确性和可靠性，以更好地服务于人类社会。

文章来源：https://the-decoder.com/gpt-4o-and-co-get-it-wrong-more-often-than-right-says-openai-study/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI推出TrigFlow框架，革新连续时间一致性模型

下一篇 Run AI推出开源解决方案Model Streamer，六倍提升模型加载速度

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来