谷歌推出 Gemma 3 QAT 模型消费级显卡即可运行上个月，谷歌公司发布了最新一代开放大模型Gemma 3，其卓越的性能能够利用原生的 BF16 精度在 NVIDIA H100 等单块高端加速卡上运行

谷歌推出 Gemma 3 QAT 模型消费级显卡即可运行

上个月，谷歌公司发布了最新一代开放大模型Gemma 3，其卓越的性能能够利用原生的 BF16 精度在 NVIDIA H100 等单块高端加速卡上运行。为了进一步提升 Gemma 3 的易用性，谷歌宣布宣布推出采用量化感知训练 (QAT) 优化的新版本，该技术可在保持高质量的同时显著降低显存需求，可以在 NVIDIA RTX 3090 等消费级显卡上本地运行 Gemma 3 27B 等强大的模型。QAT 并非仅在模型完全训练完成后才进行量化，而是在训练过程中融入了量化过程，从而显著减少训练后的性能损失。Gemma 3 27B 模型的显存占用从 54 GB（BF16）降至仅 14.1 GB（int4），仍能保持高质量结果。

—— 谷歌博客

via 风向旗参考快讯 - Telegram Channel