Reasoning-Llama-1b-v0.1-GGUF:Llama3系推理模型的多种GGUF量化版本，适配LM Studio等平台 - AtomGit

基于KingNish/Reasoning-Llama-1b-v0.1的Llamacpp imatrix量化模型，提供Q2至Q8等多种精度选择，支持ARM芯片优化，适用于文本生成与推理任务，可在LM Studio中运行。【此简介由AI生成】

Aai-modelscopeUpdate metadata with huggingface_hub

a94c6d0d创建于 2024年11月28日3次提交

文件	最后提交记录	最后更新时间
.gitattributes	Update metadata with huggingface_hub	1 年前
README.md	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-IQ3_M.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-IQ4_XS.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q2_K.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q2_K_L.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q3_K_L.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q3_K_S.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q3_K_XL.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_0.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_0_4_4.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_0_4_8.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_0_8_8.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_K_L.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_K_M.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q4_K_S.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q5_K_L.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q5_K_M.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q5_K_S.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q6_K.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q6_K_L.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-Q8_0.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1-f16.ggufLFS	Update metadata with huggingface_hub	1 年前
Reasoning-Llama-1b-v0.1.imatrixLFS	Update metadata with huggingface_hub	1 年前
configuration.json	Update metadata with huggingface_hub	1 年前

自动翻译

base_model: KingNish/Reasoning-Llama-1b-v0.1 datasets:

KingNish/reasoning-base-20k language:
en license: llama3.2 pipeline_tag: text-generation tags:
text-generation-inference
transformers
unsloth
llama
trl
sft
reasoning
llama-3 quantized_by: bartowski

Reasoning-Llama-1b-v0.1 的 Llamacpp 矩阵量化版本

基于 llama.cpp 版本 b3878 进行量化。

原始模型：https://huggingface.co/KingNish/Reasoning-Llama-1b-v0.1

所有量化版本均采用矩阵优化选项，数据集来源自此处

可在 LM Studio 中运行使用

提示词格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|>
<|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

请从下方下载文件（非完整分支）：

文件名	量化类型	文件大小	分片	描述
Reasoning-Llama-1b-v0.1-f16.gguf	f16	2.48GB	false	全精度F16权重
Reasoning-Llama-1b-v0.1-Q8_0.gguf	Q8_0	1.32GB	false	极高品质，通常无需但为当前最高可用量化级别
Reasoning-Llama-1b-v0.1-Q6_K_L.gguf	Q6_K_L	1.09GB	false	嵌入层和输出层使用Q8_0量化。接近无损的极高品质，推荐使用
Reasoning-Llama-1b-v0.1-Q6_K.gguf	Q6_K	1.02GB	false	接近无损的极高品质，推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_L.gguf	Q5_K_L	0.98GB	false	嵌入层和输出层使用Q8_0量化。高品质，推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_M.gguf	Q5_K_M	0.91GB	false	高品质，推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_S.gguf	Q5_K_S	0.89GB	false	高品质，推荐使用
Reasoning-Llama-1b-v0.1-Q4_K_L.gguf	Q4_K_L	0.87GB	false	嵌入层和输出层使用Q8_0量化。良好品质，推荐使用
Reasoning-Llama-1b-v0.1-Q4_K_M.gguf	Q4_K_M	0.81GB	false	良好品质，适用于多数场景的默认规格，推荐使用
Reasoning-Llama-1b-v0.1-Q3_K_XL.gguf	Q3_K_XL	0.80GB	false	嵌入层和输出层使用Q8_0量化。质量较低但可用，适合低内存环境
Reasoning-Llama-1b-v0.1-Q4_K_S.gguf	Q4_K_S	0.78GB	false	质量略低但节省更多空间，推荐使用
Reasoning-Llama-1b-v0.1-Q4_0_8_8.gguf	Q4_0_8_8	0.77GB	false	为ARM推理优化。需要'sve'支持（参见下方链接）
Reasoning-Llama-1b-v0.1-Q4_0_4_8.gguf	Q4_0_4_8	0.77GB	false	为ARM推理优化。需要'i8mm'支持（参见下方链接）
Reasoning-Llama-1b-v0.1-Q4_0_4_4.gguf	Q4_0_4_4	0.77GB	false	为ARM推理优化。兼容所有ARM芯片，不确定时请选择此版本
Reasoning-Llama-1b-v0.1-Q4_0.gguf	Q4_0	0.77GB	false	传统格式，通常不如同规格新格式实用
Reasoning-Llama-1b-v0.1-IQ4_XS.gguf	IQ4_XS	0.74GB	false	良好品质，体积小于Q4_K_S且性能相当，推荐使用
Reasoning-Llama-1b-v0.1-Q3_K_L.gguf	Q3_K_L	0.73GB	false	质量较低但可用，适合低内存环境
Reasoning-Llama-1b-v0.1-IQ3_M.gguf	IQ3_M	0.66GB	false	中低品质，新量化方法，性能与Q3_K_M相当
Reasoning-Llama-1b-v0.1-Q3_K_S.gguf	Q3_K_S	0.64GB	false	低品质，不推荐使用
Reasoning-Llama-1b-v0.1-Q2_K_L.gguf	Q2_K_L	0.64GB	false	嵌入层和输出层使用Q8_0量化。质量极低但意外可用
Reasoning-Llama-1b-v0.1-Q2_K.gguf	Q2_K	0.58GB	false	质量极低但意外可用

嵌入层/输出层权重量化说明

部分量化版本（如Q3_K_XL、Q4_K_L等）采用标准量化方法，但将嵌入层和输出层权重量化为Q8_0格式，而非默认的量化方案。

有用户反馈这种处理能提升模型质量，也有用户表示未察觉明显差异。若您使用这些模型，请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值，避免持续上传无人使用的量化文件。

感谢合作！

使用huggingface-cli下载

首先请确保已安装huggingface-cli工具：

pip install -U "huggingface_hub[cli]"

然后，您可以定位到所需的特定文件：

huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q4_K_M.gguf" --local-dir ./

如果模型大小超过50GB，它会被分割成多个文件。要将所有文件下载到本地文件夹，请运行：

huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q8_0/*" --local-dir ./

您可以选择指定一个新的本地目录（Reasoning-Llama-1b-v0.1-Q8_0），或者直接下载所有文件到当前目录（./）

Q4_0_X_X 量化版本

这些版本不兼容 Metal（苹果）卸载功能，仅适用于 ARM 芯片。

若使用 ARM 芯片，Q4_0_X_X 量化版本将带来显著的速度提升。具体性能对比可查看原始拉取请求中的 Q4_0_4_4 速度测试数据。

要确定最适合您 ARM 芯片的版本，可参考AArch64 芯片特性表（感谢 EloyOn!）。

如何选择文件？

Artefact2 提供了详尽的性能图表说明供参考。

首先需要确定可运行的模型大小，这取决于您设备的 RAM 和/或 VRAM 容量：

若追求极致运行速度，建议选择比 GPU 显存容量小 1-2GB 的量化版本
若追求最高质量输出，可将系统内存与 GPU 显存相加后，选择比总容量小 1-2GB 的量化版本

其次需要选择「I-quant」或「K-quant」类型：

若不想深入考量，可直接选择 K-quant（格式为 QX_K_X，例如 Q5_K_M）
若需要更精细选择，可参考功能特性矩阵表

简而言之：若目标量化等级低于 Q4，且使用 cuBLAS（英伟达）或 rocBLAS（AMD）运行时，应优先考虑 I-quant（格式为 IQX_X，例如 IQ3_M）。这类新型量化在同等体积下性能更优。

注意：I-quant 虽可运行于 CPU 和 Apple Metal 环境，但速度会低于对应的 K-quant 版本，需要根据速度与性能需求权衡选择。此外，I-quant 不兼容 Vulcan（AMD 的另一框架），使用 AMD 显卡时请确认使用的是 rocBLAS 构建版还是 Vulcan 构建版。截至本文撰写时，LM Studio 已推出支持 ROCm 的预览版，其他推理引擎也有专门的 ROCm 构建版本。

致谢

感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助

感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发

想支持我的工作？请访问我的 ko-fi 页面：https://ko-fi.com/bartowski

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新