基于Google官方QAT模型与Bartowski量化模型融合优化,采用imatrix校准嵌入表,文件体积缩减至15.6GB,保持低困惑度(8.2291),兼顾性能与存储效率。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: gemma metrics:
- perplexity base_model:
- google/gemma-3-27b-it-qat-q4_0-gguf
- bartowski/google_gemma-3-27b-it-GGUF
这是对 https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-gguf 与 https://huggingface.co/bartowski/google_gemma-3-27b-it-GGUF 进行的"自融合"版本。
谷歌官方发布的QAT权重对嵌入表使用fp16格式(而非Q6_K),导致该模型相比标准Q4_0量化模型需要占用显著额外的内存(和存储空间)。我并未自行量化该表,而是从Bartowski的量化模型中提取了该部分,因为这些模型已经通过imatrix进行了校准,这有望进一步提升其性能。
以下是一些困惑度测量数据:
| 模型 | 文件大小 ↓ | 困惑度 (wiki.text.raw) ↓ |
|---|---|---|
| 本模型 | 15.6 GB | 8.2291 +/- 0.06315 |
| QAT Q4_0 (谷歌官方) | 17.2 GB | 8.2323 +/- 0.06320 |
需要注意的是,本模型最终体积小于Bartowski的Q4_0版本。这是因为llama.cpp在使用imatrix将模型量化为Q4_0时会将部分张量设置为Q4_1,但本次采用的是静态量化。 虽然本模型的困惑度评分较谷歌原始模型更低,但结果仍在误差范围内,很可能只是统计波动所致。