Reasoning-Llama-1b-v0.1-GGUF:Llama3系推理模型的多种GGUF量化版本,适配LM Studio等平台

基于KingNish/Reasoning-Llama-1b-v0.1的Llamacpp imatrix量化模型,提供Q2至Q8等多种精度选择,支持ARM芯片优化,适用于文本生成与推理任务,可在LM Studio中运行。【此简介由AI生成】

分支1Tags0
a94c6d0d创建于 2024年11月28日3次提交
文件最后提交记录最后更新时间
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前
Update metadata with huggingface_hub 1 年前

base_model: KingNish/Reasoning-Llama-1b-v0.1 datasets:

  • KingNish/reasoning-base-20k language:
  • en license: llama3.2 pipeline_tag: text-generation tags:
  • text-generation-inference
  • transformers
  • unsloth
  • llama
  • trl
  • sft
  • reasoning
  • llama-3 quantized_by: bartowski

Reasoning-Llama-1b-v0.1 的 Llamacpp 矩阵量化版本

基于 llama.cpp 版本 b3878 进行量化。

原始模型:https://huggingface.co/KingNish/Reasoning-Llama-1b-v0.1

所有量化版本均采用矩阵优化选项,数据集来源自此处

可在 LM Studio 中运行使用

提示词格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|>
<|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

请从下方下载文件(非完整分支):

文件名 量化类型 文件大小 分片 描述
Reasoning-Llama-1b-v0.1-f16.gguf f16 2.48GB false 全精度F16权重
Reasoning-Llama-1b-v0.1-Q8_0.gguf Q8_0 1.32GB false 极高品质,通常无需但为当前最高可用量化级别
Reasoning-Llama-1b-v0.1-Q6_K_L.gguf Q6_K_L 1.09GB false 嵌入层和输出层使用Q8_0量化。接近无损的极高品质,推荐使用
Reasoning-Llama-1b-v0.1-Q6_K.gguf Q6_K 1.02GB false 接近无损的极高品质,推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_L.gguf Q5_K_L 0.98GB false 嵌入层和输出层使用Q8_0量化。高品质,推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_M.gguf Q5_K_M 0.91GB false 高品质,推荐使用
Reasoning-Llama-1b-v0.1-Q5_K_S.gguf Q5_K_S 0.89GB false 高品质,推荐使用
Reasoning-Llama-1b-v0.1-Q4_K_L.gguf Q4_K_L 0.87GB false 嵌入层和输出层使用Q8_0量化。良好品质,推荐使用
Reasoning-Llama-1b-v0.1-Q4_K_M.gguf Q4_K_M 0.81GB false 良好品质,适用于多数场景的默认规格,推荐使用
Reasoning-Llama-1b-v0.1-Q3_K_XL.gguf Q3_K_XL 0.80GB false 嵌入层和输出层使用Q8_0量化。质量较低但可用,适合低内存环境
Reasoning-Llama-1b-v0.1-Q4_K_S.gguf Q4_K_S 0.78GB false 质量略低但节省更多空间,推荐使用
Reasoning-Llama-1b-v0.1-Q4_0_8_8.gguf Q4_0_8_8 0.77GB false 为ARM推理优化。需要'sve'支持(参见下方链接)
Reasoning-Llama-1b-v0.1-Q4_0_4_8.gguf Q4_0_4_8 0.77GB false 为ARM推理优化。需要'i8mm'支持(参见下方链接)
Reasoning-Llama-1b-v0.1-Q4_0_4_4.gguf Q4_0_4_4 0.77GB false 为ARM推理优化。兼容所有ARM芯片,不确定时请选择此版本
Reasoning-Llama-1b-v0.1-Q4_0.gguf Q4_0 0.77GB false 传统格式,通常不如同规格新格式实用
Reasoning-Llama-1b-v0.1-IQ4_XS.gguf IQ4_XS 0.74GB false 良好品质,体积小于Q4_K_S且性能相当,推荐使用
Reasoning-Llama-1b-v0.1-Q3_K_L.gguf Q3_K_L 0.73GB false 质量较低但可用,适合低内存环境
Reasoning-Llama-1b-v0.1-IQ3_M.gguf IQ3_M 0.66GB false 中低品质,新量化方法,性能与Q3_K_M相当
Reasoning-Llama-1b-v0.1-Q3_K_S.gguf Q3_K_S 0.64GB false 低品质,不推荐使用
Reasoning-Llama-1b-v0.1-Q2_K_L.gguf Q2_K_L 0.64GB false 嵌入层和输出层使用Q8_0量化。质量极低但意外可用
Reasoning-Llama-1b-v0.1-Q2_K.gguf Q2_K 0.58GB false 质量极低但意外可用

嵌入层/输出层权重量化说明

部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0格式,而非默认的量化方案。

有用户反馈这种处理能提升模型质量,也有用户表示未察觉明显差异。若您使用这些模型,请务必分享您的测试结果。我们需要实际使用反馈来验证这些量化版本的价值,避免持续上传无人使用的量化文件。

感谢合作!

使用huggingface-cli下载

首先请确保已安装huggingface-cli工具:

pip install -U "huggingface_hub[cli]"

然后,您可以定位到所需的特定文件:

huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q4_K_M.gguf" --local-dir ./

如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:

huggingface-cli download bartowski/Reasoning-Llama-1b-v0.1-GGUF --include "Reasoning-Llama-1b-v0.1-Q8_0/*" --local-dir ./

您可以选择指定一个新的本地目录(Reasoning-Llama-1b-v0.1-Q8_0),或者直接下载所有文件到当前目录(./)

Q4_0_X_X 量化版本

这些版本不兼容 Metal(苹果)卸载功能,仅适用于 ARM 芯片。

若使用 ARM 芯片,Q4_0_X_X 量化版本将带来显著的速度提升。具体性能对比可查看原始拉取请求中的 Q4_0_4_4 速度测试数据。

要确定最适合您 ARM 芯片的版本,可参考AArch64 芯片特性表(感谢 EloyOn!)。

如何选择文件?

Artefact2 提供了详尽的性能图表说明供参考。

首先需要确定可运行的模型大小,这取决于您设备的 RAM 和/或 VRAM 容量:

  • 若追求极致运行速度,建议选择比 GPU 显存容量小 1-2GB 的量化版本
  • 若追求最高质量输出,可将系统内存与 GPU 显存相加后,选择比总容量小 1-2GB 的量化版本

其次需要选择「I-quant」或「K-quant」类型:

  • 若不想深入考量,可直接选择 K-quant(格式为 QX_K_X,例如 Q5_K_M)
  • 若需要更精细选择,可参考功能特性矩阵表

简而言之:若目标量化等级低于 Q4,且使用 cuBLAS(英伟达)或 rocBLAS(AMD)运行时,应优先考虑 I-quant(格式为 IQX_X,例如 IQ3_M)。这类新型量化在同等体积下性能更优。

注意:I-quant 虽可运行于 CPU 和 Apple Metal 环境,但速度会低于对应的 K-quant 版本,需要根据速度与性能需求权衡选择。此外,I-quant 不兼容 Vulcan(AMD 的另一框架),使用 AMD 显卡时请确认使用的是 rocBLAS 构建版还是 Vulcan 构建版。截至本文撰写时,LM Studio 已推出支持 ROCm 的预览版,其他推理引擎也有专门的 ROCm 构建版本。

致谢

感谢 kalomaze 和 Dampf 在创建 imatrix 校准数据集过程中提供的协助

感谢 ZeroWw 在 embed/output 实验方面给予的灵感启发

想支持我的工作?请访问我的 ko-fi 页面:https://ko-fi.com/bartowski

项目介绍

基于KingNish/Reasoning-Llama-1b-v0.1的Llamacpp imatrix量化模型,提供Q2至Q8等多种精度选择,支持ARM芯片优化,适用于文本生成与推理任务,可在LM Studio中运行。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新