谷歌推出首个视觉-语言多模态模型PaliGemma

2024年05月15日由 neo 发表 581 0

谷歌在今日举行的开发者大会上，正式推出了其Gemma系列轻量级开放模型下的全新视觉-语言多模态模型——PaliGemma。这款创新模型旨在解决图像标注、视觉问题回答和图像检索等核心问题，并立即向全球开发者开放，以助力其项目实现更多可能。

16c28d9e-235c-4c81-81b7-d9a2630a5994

作为Gemma家族的新成员，PaliGemma以其独特的功能和优势脱颖而出。它不仅是唯一一个旨在将视觉信息转换为书面语言的模型，还是一款高效运行的小型语言模型（SLM）。这一特性使得PaliGemma能够在无需大量内存或处理能力的情况下运行，特别适合资源受限的设备，如智能手机、物联网设备和个人电脑。

开发者们对PaliGemma的发布表示出浓厚的兴趣。这款模型为他们带来了前所未有的机遇，可以应用于内容生成、搜索功能增强以及辅助视觉障碍者理解周围世界等多个领域。在AI技术日益普及的今天，PaliGemma的推出将助力开发者们更高效地实现AI技术在移动和物联网设备上的应用，为用户提供更智能、更便捷的体验。

除了PaliGemma的发布，谷歌还透露了其Gemma系列的最大版本，拥有高达270亿参数。这一消息进一步展示了谷歌在AI技术领域的持续投入和创新实力。随着Gemma系列的不断完善和发展，我们有理由相信，谷歌将继续引领AI技术在全球范围内的应用和发展。

PaliGemma的推出标志着谷歌在推动AI技术在移动和物联网设备应用方面迈出了重要一步。随着更多开发者和企业的加入，我们期待看到更多基于PaliGemma的创新应用涌现，为用户带来更多智能化、个性化的服务体验。

文章来源：https://venturebeat.com/ai/google-introduces-paligemma-vision-language-open-model-gemma/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Invoke AI推出新功能提升图像创作控制

下一篇谷歌发布全新文本到图像模型Imagen 3：更高质量、更有创造性

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来