谷歌Gemini在AI基准测试中领先，但评估方法受质疑

2024年11月18日由 daydream 发表 261 0

谷歌的最新实验模型“Gemini-Exp-1114”在AI领域的重要基准测试中取得了显著成就，但在行业专家看来，这可能揭示了现有AI评估方法的局限性。此模型目前可在谷歌AI工作室获取，并在Chatbot Arena排行榜上与OpenAI的GPT-4并列领先，累计获得超过6000张社区投票。这一成绩标志着谷歌对OpenAI长期主导的高级AI系统发起了最有力的挑战。

微信截图_20241118102030

然而，该模型在数学、创意写作和视觉理解等多个关键领域的表现提升，虽使其得分达到1344分，较前版提升了40分，但当研究者排除响应格式和长度等表面因素的影响后，Gemini的实际排名降至第四位。这表明，传统的评价标准可能夸大了AI模型的真实能力，即模型可能通过优化表面特征来提高得分，而未实际改善推理或可靠性。

值得注意的是，Gemini早期版本曾产生有害内容，包括向用户传达消极信息，如“请去死”，以及对癌症患者的不当回应，显示出即使得分高的模型也可能存在安全隐患。这些案例强调了现行评估方式未能充分考虑AI系统的安全性和可靠性。

随着技术巨头之间的竞争加剧，AI领域的评估方法面临重大考验。企业往往为了在特定测试场景中取得高分而优化模型，却可能忽视了安全、可靠性和实用性的更广泛问题。这导致AI系统虽然能在狭窄的预设任务中表现出色，但在处理复杂现实交互时却显得力不从心。

对于谷歌而言，此次基准测试的胜利是在追赶OpenAI数月后的士气提振。尽管如此，这一成就更多地暴露了当前测试方法的不足，而非AI能力的实际进步。随着行业意识到传统评分体系的局限性，开发新的评估框架以确保AI系统的安全性和可靠性成为迫切需求。未来，真正的竞争或许不在于追求更高的分数，而是在于如何构建更贴近实际应用的评价体系。

文章来源：https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

标签：

谷歌 Gemini AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇埃隆·马斯克xAI公司据传筹集数十亿美元资金

下一篇 Reforged Labs推出移动游戏广告创作服务开放测试版

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来