谷歌Gemini 1.5 Pro更新：新增“听觉”功能

2024年04月10日由 daydream 发表 319 0

在谷歌的Next活动中，谷歌宣布对其Gemini 1.5 Pro进行了重要更新，赋予了该模型“听觉”功能。如今，这款模型不仅能听取上传的音频文件，还能从诸如财报电话会议或视频音频中提取关键信息，而且无需依赖书面转录。

微信截图_20240410110719

同时，谷歌还首次通过其AI应用程序构建平台Vertex AI，将Gemini 1.5 Pro推向公众。这款模型最初在2月份发布，作为Gemini系列的中端产品，它在性能上已经超越了系列中最大、最强大的Gemini Ultra模型。谷歌声称，Gemini 1.5 Pro不仅具备理解复杂指令的能力，还消除了对模型微调的需求。

目前，没有Vertex AI和AI Studio访问权限的用户暂时无法使用Gemini 1.5 Pro。大多数人目前是通过Gemini聊天机器人来体验Gemini语言模型的。虽然Gemini Ultra为Gemini Advanced聊天机器人提供了支持，功能强大且能理解长指令，但在速度方面却稍逊于Gemini 1.5 Pro。

除了Gemini 1.5 Pro，谷歌的另一个大型AI模型——文本到图像生成模型Imagen 2也获得了更新。这次更新增强了Gemini的图像生成能力，增加了图像修复和图像外扩功能，让用户能够轻松地向图像中添加或删除元素。谷歌还将其SynthID数字水印功能应用于所有通过Imagen模型创建的图片，这会在图像上添加一个对观看者不可见的水印，用于标记其来源。

Imagen的新功能，尤其是图像修复和图像外扩功能，已经在其他文本到图像模型中出现，如Stability AI的Stable Cascade和Getty的iStock生成式AI。此外，这些功能在新款三星Galaxy手机上的消费者可用性也得到了广泛的扩展。

谷歌还表示，它正在公开预览一种将AI响应与谷歌搜索相结合的方法，以便AI能够利用最新信息来回答问题。不过，大型语言模型产生的响应并不总是准确的，有时甚至是故意的；因此，谷歌特意让Gemini避免回答与2024年美国大选相关的问题。

最近，Gemini还因生成具有历史不准确人物照片而受到批评。这一事件引发了关于AI模型在历史和文化准确性方面的讨论，也提醒我们在使用这类技术时需要更加谨慎和审慎。

文章来源：https://www.theverge.com/2024/4/9/24124741/google-gemini-pro-imagen-updates-vertex

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇两大科技巨头正在联手研发新型人工智能个人设备

下一篇英特尔推出Gaudi 3 AI加速器，称性能超越英伟达H100

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

2024年RAG的年度回顾