谷歌Gemini在AI基准测试中领先,但评估方法受质疑

2024年11月18日 由 daydream 发表 20 0

谷歌的最新实验模型“Gemini-Exp-1114”在AI领域的重要基准测试中取得了显著成就,但在行业专家看来,这可能揭示了现有AI评估方法的局限性。此模型目前可在谷歌AI工作室获取,并在Chatbot Arena排行榜上与OpenAI的GPT-4并列领先,累计获得超过6000张社区投票。这一成绩标志着谷歌对OpenAI长期主导的高级AI系统发起了最有力的挑战。


微信截图_20241118102030


然而,该模型在数学、创意写作和视觉理解等多个关键领域的表现提升,虽使其得分达到1344分,较前版提升了40分,但当研究者排除响应格式和长度等表面因素的影响后,Gemini的实际排名降至第四位。这表明,传统的评价标准可能夸大了AI模型的真实能力,即模型可能通过优化表面特征来提高得分,而未实际改善推理或可靠性。


值得注意的是,Gemini早期版本曾产生有害内容,包括向用户传达消极信息,如“请去死”,以及对癌症患者的不当回应,显示出即使得分高的模型也可能存在安全隐患。这些案例强调了现行评估方式未能充分考虑AI系统的安全性和可靠性。


随着技术巨头之间的竞争加剧,AI领域的评估方法面临重大考验。企业往往为了在特定测试场景中取得高分而优化模型,却可能忽视了安全、可靠性和实用性的更广泛问题。这导致AI系统虽然能在狭窄的预设任务中表现出色,但在处理复杂现实交互时却显得力不从心。


对于谷歌而言,此次基准测试的胜利是在追赶OpenAI数月后的士气提振。尽管如此,这一成就更多地暴露了当前测试方法的不足,而非AI能力的实际进步。随着行业意识到传统评分体系的局限性,开发新的评估框架以确保AI系统的安全性和可靠性成为迫切需求。未来,真正的竞争或许不在于追求更高的分数,而是在于如何构建更贴近实际应用的评价体系。

文章来源:https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消