谷歌推出优化版 Gemma 3 模型,大幅降低显存需求

谷歌昨日发布博文,宣布推出基于量化感知训练(QAT)技术优化的 Gemma 3 模型。新版本在保持高性能的同时显著减少了内存需求。通过将模型参数精度从 BFloat16 降至 int4,Gemma 3 的显存占用得以锐减:27B 版本从 54GB 降至 14.1GB,12B 版本从 24GB 降至 6.6GB,而 1B 版本仅需 0.5GB 显存。

这一改进使强大 AI 模型能够在普通硬件上运行,包括桌面级 GPU(如 NVIDIA RTX 3090)、笔记本 GPU(如 RTX 4060 Laptop GPU),甚至手机也能支持小型模型。为确保量化后性能不下降,谷歌采用 QAT 技术,在训练中模拟低精度运算,成功将困惑度下降减少 54%。

目前,主流平台如 Ollama、LM Studio 和 llama.cpp 已集成该模型,用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型,轻松部署于 Apple Silicon 或 CPU。Gemmaverse 社区还提供了更多量化选项以满足多样化需求。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1