谷歌发布了Gemini,这是其最强大的一套AI模型,但被指控在视频中夸大了它的性能。
彭博社的一篇专栏文章说,谷歌在一段视频中歪曲了Gemini的能力。视频展示了Gemini的多模态能力(比如,结合语音对话提示和图像识别)。Gemini似乎能快速识别图像,实时跟踪纸杯和球游戏中的一团纸。但是谷歌在视频描述中有一个免责声明:
“为了演示的目的,我们减少了延迟,并缩短了Gemini的输出。”
专栏作家Parmy Olson不满意这个声明。她在彭博社的文章中说,谷歌承认,视频演示并没有使用语音提示实时进行,而是使用原始视频的静态图像帧,然后写出文本提示,让Gemini对其做出回应。“这与谷歌似乎在暗示的完全不同:一个人可以与Gemini进行流畅的语音对话,而它可以观察并实时响应周围的世界,”Olson写道。
谷歌经常编辑演示视频,尤其是想避免现场演示的技术故障。在这种情况下,Olson说谷歌是在“炫耀”,为了误导人们,让他们忽略Gemini仍然落后于OpenAI的GPT的事实。
谷歌不同意。它向媒体引用了一篇来自Oriol Vinyals的文章,他是谷歌DeepMind的研究副总裁和深度学习负责人(也是Gemini的共同负责人),他解释了团队是如何制作视频的。
“视频中的所有用户提示和输出都是真实的,为了简洁而缩短,”Vinyals说。“视频展示了使用Gemini构建的多模式用户体验可能是什么样子。我们制作它是为了激励开发者。”
他补充说,团队给了Gemini图像和文本,并要求它通过预测接下来会发生什么来回应。
这当然是一种处理这种情况的方法,但它可能不是谷歌的正确方法——因为它已经在公众眼中显得被OpenAI今年的巨大成功打了个措手不及。如果它想要激励开发者,不是通过精心编辑的炫酷视频,这些视频可以说是歪曲了AI的能力。而是通过让记者和开发者真正体验产品。