谷歌推出优化版 Gemma 3 模型，大幅降低显存需求- DoNews快讯

DoNews > 快讯 > 谷歌推出优化版 Gemma 3 模型，大幅降低显存需求

谷歌推出优化版 Gemma 3 模型，大幅降低显存需求

2025-04-19 09:59:02

597102

谷歌昨日发布博文，宣布推出基于量化感知训练（QAT）技术优化的 Gemma 3 模型。新版本在保持高性能的同时显著减少了内存需求。通过将模型参数精度从 BFloat16 降至 int4，Gemma 3 的显存占用得以锐减：27B 版本从 54GB 降至 14.1GB，12B 版本从 24GB 降至 6.6GB，而 1B 版本仅需 0.5GB 显存。

这一改进使强大 AI 模型能够在普通硬件上运行，包括桌面级 GPU（如 NVIDIA RTX 3090）、笔记本 GPU（如 RTX 4060 Laptop GPU），甚至手机也能支持小型模型。为确保量化后性能不下降，谷歌采用 QAT 技术，在训练中模拟低精度运算，成功将困惑度下降减少 54%。

目前，主流平台如 Ollama、LM Studio 和 llama.cpp 已集成该模型，用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型，轻松部署于 Apple Silicon 或 CPU。Gemmaverse 社区还提供了更多量化选项以满足多样化需求。