基于KingNish/Reasoning-Llama-1b-v0.1的Llamacpp imatrix量化模型,提供Q2至Q8等多种精度选择,支持ARM芯片优化,适用于文本生成与推理任务,可在LM Studio中运行。【此简介由AI生成】
base_model: KingNish/Reasoning-Llama-1b-v0.1 datasets:
- KingNish/reasoning-base-20k language:
- en license: llama3.2 pipeline_tag: text-generation tags:
- text-generation-inference
- transformers
- unsloth
- llama
- trl
- sft
- reasoning
- llama-3 quantized_by: bartowski
Reasoning-Llama-1b-v0.1 的 Llamacpp 矩阵量化版本
原始模型:https://huggingface.co/KingNish/Reasoning-Llama-1b-v0.1
所有量化版本均采用矩阵优化选项,数据集来源自此处
可在 LM Studio 中运行使用
提示词格式
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|>
<|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
请从下方下载文件(非完整分支):
| 文件名 | 量化类型 | 文件大小 | 分片 | 描述 |
|---|---|---|---|---|
| Reasoning-Llama-1b-v0.1-f16.gguf | f16 | 2.48GB | false | 全精度F16权重 |
| Reasoning-Llama-1b-v0.1-Q8_0.gguf | Q8_0 | 1.32GB | false | 极高品质,通常无需但为当前最高可用量化级别 |
| Reasoning-Llama-1b-v0.1-Q6_K_L.gguf | Q6_K_L | 1.09GB | false | 嵌入层和输出层使用Q8_0量化。接近无损的极高品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q6_K.gguf | Q6_K | 1.02GB | false | 接近无损的极高品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q5_K_L.gguf | Q5_K_L | 0.98GB | false | 嵌入层和输出层使用Q8_0量化。高品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q5_K_M.gguf | Q5_K_M | 0.91GB | false | 高品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q5_K_S.gguf | Q5_K_S | 0.89GB | false | 高品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q4_K_L.gguf | Q4_K_L | 0.87GB | false | 嵌入层和输出层使用Q8_0量化。良好品质,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q4_K_M.gguf | Q4_K_M | 0.81GB | false | 良好品质,适用于多数场景的默认规格,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q3_K_XL.gguf | Q3_K_XL | 0.80GB | false | 嵌入层和输出层使用Q8_0量化。质量较低但可用,适合低内存环境 |
| Reasoning-Llama-1b-v0.1-Q4_K_S.gguf | Q4_K_S | 0.78GB | false | 质量略低但节省更多空间,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q4_0_8_8.gguf | Q4_0_8_8 | 0.77GB | false | 为ARM推理优化。需要'sve'支持(参见下方链接) |
| Reasoning-Llama-1b-v0.1-Q4_0_4_8.gguf | Q4_0_4_8 | 0.77GB | false | 为ARM推理优化。需要'i8mm'支持(参见下方链接) |
| Reasoning-Llama-1b-v0.1-Q4_0_4_4.gguf | Q4_0_4_4 | 0.77GB | false | 为ARM推理优化。兼容所有ARM芯片,不确定时请选择此版本 |
| Reasoning-Llama-1b-v0.1-Q4_0.gguf | Q4_0 | 0.77GB | false | 传统格式,通常不如同规格新格式实用 |
| Reasoning-Llama-1b-v0.1-IQ4_XS.gguf | IQ4_XS | 0.74GB | false | 良好品质,体积小于Q4_K_S且性能相当,推荐使用 |
| Reasoning-Llama-1b-v0.1-Q3_K_L.gguf | Q3_K_L | 0.73GB | false | 质量较低但可用,适合低内存环境 |
| Reasoning-Llama-1b-v0.1-IQ3_M.gguf | IQ3_M | 0.66GB | false | 中低品质,新量化方法,性能与Q3_K_M相当 |
| Reasoning-Llama-1b-v0.1-Q3_K_S.gguf | Q3_K_S | 0.64GB | false | 低品质,不推荐使用 |
| Reasoning-Llama-1b-v0.1-Q2_K_L.gguf | Q2_K_L | 0.64GB | false | 嵌入层和输出层使用Q8_0量化。质量极低但意外可用 |
| Reasoning-Llama-1b-v0.1-Q2_K.gguf | Q2_K | 0.58GB | false | 质量极低但意外可用 |
嵌入层/输出层权重量化说明
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0格式,而非默认的量化方案。
有用户反馈这种处理能提升模型质量,也有用户表示未察觉明显差异。若您使用这些模型,请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值,避免持续上传无人使用的量化文件。
感谢合作!
使用huggingface-cli下载
首先请确保已安装huggingface-cli工具:
pip install -U "huggingface_hub[cli]"
然后,您可以定位到所需的特定文件:
huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q4_K_M.gguf" --local-dir ./
如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:
huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q8_0/*" --local-dir ./
您可以选择指定一个新的本地目录(Reasoning-Llama-1b-v0.1-Q8_0),或者直接下载所有文件到当前目录(./)
Q4_0_X_X 量化版本
这些版本不兼容 Metal(苹果)卸载功能,仅适用于 ARM 芯片。
若使用 ARM 芯片,Q4_0_X_X 量化版本将带来显著的速度提升。具体性能对比可查看原始拉取请求中的 Q4_0_4_4 速度测试数据。
要确定最适合您 ARM 芯片的版本,可参考AArch64 芯片特性表(感谢 EloyOn!)。
如何选择文件?
Artefact2 提供了详尽的性能图表说明供参考。
首先需要确定可运行的模型大小,这取决于您设备的 RAM 和/或 VRAM 容量:
- 若追求极致运行速度,建议选择比 GPU 显存容量小 1-2GB 的量化版本
- 若追求最高质量输出,可将系统内存与 GPU 显存相加后,选择比总容量小 1-2GB 的量化版本
其次需要选择「I-quant」或「K-quant」类型:
- 若不想深入考量,可直接选择 K-quant(格式为 QX_K_X,例如 Q5_K_M)
- 若需要更精细选择,可参考功能特性矩阵表
简而言之:若目标量化等级低于 Q4,且使用 cuBLAS(英伟达)或 rocBLAS(AMD)运行时,应优先考虑 I-quant(格式为 IQX_X,例如 IQ3_M)。这类新型量化在同等体积下性能更优。
注意:I-quant 虽可运行于 CPU 和 Apple Metal 环境,但速度会低于对应的 K-quant 版本,需要根据速度与性能需求权衡选择。此外,I-quant 不兼容 Vulcan(AMD 的另一框架),使用 AMD 显卡时请确认使用的是 rocBLAS 构建版还是 Vulcan 构建版。截至本文撰写时,LM Studio 已推出支持 ROCm 的预览版,其他推理引擎也有专门的 ROCm 构建版本。
致谢
感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助
感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发
想支持我的工作?请访问我的 ko-fi 页面:https://ko-fi.com/bartowski