Google 的 Gemma 3 QAT 语言模型可以在消费级 GPU 上本地运行

2025年04月30日 由 alex 发表 1878 0

Google发布了 Gemma 3 QAT 系列,这是其开放权重 Gemma 3 语言模型的量化版本。这些模型使用量化感知训练 (QAT) 在权重从 16 位量化到 4 位时保持高精度。


所有四种 Gemma 3 模型大小现在均提供 QAT 版本:1B、4B、12B 和 27B 参数。量化版本所需的 VRAM 仅为 16 位模型所需 VRAM 的 25%。谷歌声称 27B 型号可以在具有 3090GB VRAM 的台式机 NVIDIA RTX 24 GPU 上运行,而 12B 型号可以在具有 4060GB VRAM 的笔记本电脑 NVIDIA RTX 8 GPU 上运行。较小的模型可以在移动电话或其他边缘设备上运行。通过使用量化感知训练,Google 能够将量化造成的精度损失降低多达 54%。根据 Google 的说法,


虽然高端硬件的顶级性能非常适合云部署和研究,但我们清楚地听到了您的声音:您希望在已有的硬件上获得 Gemma 3 的强大功能。我们致力于让强大的 AI 触手可及,这意味着在台式机、笔记本电脑甚至手机中的消费级 GPU 上实现高效的性能......将最先进的 AI 性能引入可访问的硬件是 AI 开发民主化的关键一步...我们迫不及待地想看看您在本地运行 Gemma 3 构建的内容!


Google 在 2024 年首次推出 Gemma 系列,紧随其后的是 Gemma 2。通过整合 Google 旗舰产品 Gemini LLM 的设计元素,开源模型实现了与 2 倍大的模型相比具有竞争力的性能。据 Google 称,最新版本 Gemma 3 的性能改进使其成为“顶级开放式紧凑型模型”。Gemma 3 还添加了视觉功能,但 1B 大小除外。


虽然未量化的 Gemma 3 模型在其尺寸上表现出令人印象深刻的性能,但它们仍然需要大量的 GPU 资源。例如,未量化的 12B 型号需要具有 32GB VRAM 的 RTX 5090。为了在不牺牲性能的情况下量化模型权重,Google 使用了 QAT。此技术在训练期间模拟推理时间量化,而不是在训练后简单地量化模型。


Google 开发人员 Omar Sanseviero 在 X 的帖子中写了关于使用 QAT 模型的文章,并表示仍有改进的余地:


我们仍然建议使用模型(例如,我们没有量化嵌入,有些人甚至进行了 3 位量化,它比朴素的 4 位效果更好)


用户在 Hacker News 上的讨论中称赞了 QAT 模型的性能:


我有一些私人的“氛围检查”问题,4 位 QAT 27B 模型都正确回答了。我对仅 13 GB 权重中锁定的信息密度感到有点震惊。如果 Deepmind 的任何人正在阅读本文 — Gemma 3 27B 是我用过的最令人印象深刻的开源模型。干的好!


Django Web 框架的共同创建者 Simon Willison 写了他关于这些模型的实验,他说:


我花了一段时间通过 Open WebUI 和 Tailscale 从我的手机访问我的笔记本电脑,我认为这可能是我最喜欢的新通用本地模型。Ollama 似乎在模型运行时使用了 22GB 的 RAM,这在我的 64GB 机器上留下了足够的内存用于其他应用程序。


Gemma 3 QAT 模型权重在 HuggingFace 和几个流行的 LLM 框架中可用,包括 Ollama、LM Studio、Gemma.cpp 和 llama.cpp。


文章来源:https://www.infoq.com/news/2025/04/google-gemma-qat/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消