谷歌的最新实验模型“Gemini-Exp-1114”在AI领域的重要基准测试中取得了显著成就,但在行业专家看来,这可能揭示了现有AI评估方法的局限性。此模型目前可在谷歌AI工作室获取,并在Chatbot Arena排行榜上与OpenAI的GPT-4并列领先,累计获得超过6000张社区投票。这一成绩标志着谷歌对OpenAI长期主导的高级AI系统发起了最有力的挑战。
然而,该模型在数学、创意写作和视觉理解等多个关键领域的表现提升,虽使其得分达到1344分,较前版提升了40分,但当研究者排除响应格式和长度等表面因素的影响后,Gemini的实际排名降至第四位。这表明,传统的评价标准可能夸大了AI模型的真实能力,即模型可能通过优化表面特征来提高得分,而未实际改善推理或可靠性。
值得注意的是,Gemini早期版本曾产生有害内容,包括向用户传达消极信息,如“请去死”,以及对癌症患者的不当回应,显示出即使得分高的模型也可能存在安全隐患。这些案例强调了现行评估方式未能充分考虑AI系统的安全性和可靠性。
随着技术巨头之间的竞争加剧,AI领域的评估方法面临重大考验。企业往往为了在特定测试场景中取得高分而优化模型,却可能忽视了安全、可靠性和实用性的更广泛问题。这导致AI系统虽然能在狭窄的预设任务中表现出色,但在处理复杂现实交互时却显得力不从心。
对于谷歌而言,此次基准测试的胜利是在追赶OpenAI数月后的士气提振。尽管如此,这一成就更多地暴露了当前测试方法的不足,而非AI能力的实际进步。随着行业意识到传统评分体系的局限性,开发新的评估框架以确保AI系统的安全性和可靠性成为迫切需求。未来,真正的竞争或许不在于追求更高的分数,而是在于如何构建更贴近实际应用的评价体系。