在谷歌的Next活动中,谷歌宣布对其Gemini 1.5 Pro进行了重要更新,赋予了该模型“听觉”功能。如今,这款模型不仅能听取上传的音频文件,还能从诸如财报电话会议或视频音频中提取关键信息,而且无需依赖书面转录。
同时,谷歌还首次通过其AI应用程序构建平台Vertex AI,将Gemini 1.5 Pro推向公众。这款模型最初在2月份发布,作为Gemini系列的中端产品,它在性能上已经超越了系列中最大、最强大的Gemini Ultra模型。谷歌声称,Gemini 1.5 Pro不仅具备理解复杂指令的能力,还消除了对模型微调的需求。
目前,没有Vertex AI和AI Studio访问权限的用户暂时无法使用Gemini 1.5 Pro。大多数人目前是通过Gemini聊天机器人来体验Gemini语言模型的。虽然Gemini Ultra为Gemini Advanced聊天机器人提供了支持,功能强大且能理解长指令,但在速度方面却稍逊于Gemini 1.5 Pro。
除了Gemini 1.5 Pro,谷歌的另一个大型AI模型——文本到图像生成模型Imagen 2也获得了更新。这次更新增强了Gemini的图像生成能力,增加了图像修复和图像外扩功能,让用户能够轻松地向图像中添加或删除元素。谷歌还将其SynthID数字水印功能应用于所有通过Imagen模型创建的图片,这会在图像上添加一个对观看者不可见的水印,用于标记其来源。
Imagen的新功能,尤其是图像修复和图像外扩功能,已经在其他文本到图像模型中出现,如Stability AI的Stable Cascade和Getty的iStock生成式AI。此外,这些功能在新款三星Galaxy手机上的消费者可用性也得到了广泛的扩展。
谷歌还表示,它正在公开预览一种将AI响应与谷歌搜索相结合的方法,以便AI能够利用最新信息来回答问题。不过,大型语言模型产生的响应并不总是准确的,有时甚至是故意的;因此,谷歌特意让Gemini避免回答与2024年美国大选相关的问题。
最近,Gemini还因生成具有历史不准确人物照片而受到批评。这一事件引发了关于AI模型在历史和文化准确性方面的讨论,也提醒我们在使用这类技术时需要更加谨慎和审慎。