google-gemma-3-27b-it-qat-q4_0-gguf-small:Gemma-3-27B-IT模型优化版：更小体积更低困惑度 - AtomGit

基于Google官方QAT模型与Bartowski量化模型融合优化，采用imatrix校准嵌入表，文件体积缩减至15.6GB，保持低困惑度(8.2291)，兼顾性能与存储效率。【此简介由AI生成】

75d71217创建于 2025年4月7日9次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload mmproj-google_gemma-3-27b-it-f16.gguf	1 年前
README.md	Update README.md	1 年前
gemma-3-27b-it-q4_0_s.ggufLFS	Upload gemma-3-27b-it-q4_0_s.gguf	1 年前
mmproj-google_gemma-3-27b-it-f16.ggufLFS	Upload mmproj-google_gemma-3-27b-it-f16.gguf	1 年前
swap_embeds.py	Upload merging script	1 年前

自动翻译

license: gemma metrics:

谷歌官方发布的QAT权重对嵌入表使用fp16格式（而非Q6_K），导致该模型相比标准Q4_0量化模型需要占用显著额外的内存（和存储空间）。我并未自行量化该表，而是从Bartowski的量化模型中提取了该部分，因为这些模型已经通过imatrix进行了校准，这有望进一步提升其性能。

以下是一些困惑度测量数据：

模型	文件大小 ↓	困惑度 (wiki.text.raw) ↓
本模型	15.6 GB	8.2291 +/- 0.06315
QAT Q4_0 (谷歌官方)	17.2 GB	8.2323 +/- 0.06320

需要注意的是，本模型最终体积小于Bartowski的Q4_0版本。这是因为llama.cpp在使用imatrix将模型量化为Q4_0时会将部分张量设置为Q4_1，但本次采用的是静态量化。虽然本模型的困惑度评分较谷歌原始模型更低，但结果仍在误差范围内，很可能只是统计波动所致。

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

Python100%