dolphin-2.9.1-yi-1.5-9b-GGUF:Llamacpp imatrix量化版,多规格GGUF模型

基于llama.cpp b2928生成的imatrix量化模型,提供Q8_0到IQ1_S等多种规格GGUF文件,适配不同性能需求,支持文本生成任务。【此简介由AI生成】

分支1Tags0
Aai-modelscopeLlamacpp quants
7c3fe5d3创建于 2024年11月26日3次提交
文件最后提交记录最后更新时间
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前
Llamacpp quants 1 年前

license: apache-2.0 base_model: 01-ai/Yi-1.5-9B tags:

  • generated_from_trainer
  • axolotl datasets:
  • cognitivecomputations/Dolphin-2.9
  • teknium/OpenHermes-2.5
  • m-a-p/CodeFeedback-Filtered-Instruction
  • cognitivecomputations/dolphin-coder
  • cognitivecomputations/samantha-data
  • microsoft/orca-math-word-problems-200k
  • Locutusque/function-calling-chatml
  • internlm/Agent-FLAN quantized_by: bartowski pipeline_tag: text-generation

dolphin-2.9.1-yi-1.5-9b 的 Llamacpp 矩阵量化版本

使用 llama.cpp 版本 b2928 进行量化。

原始模型:https://huggingface.co/cognitivecomputations/dolphin-2.9.1-yi-1.5-9b

所有量化版本均采用矩阵优化选项,数据集来源自此处

提示词格式

<|im_start|> system
{system_prompt}<|im_end|> 
<|im_start|> user
{prompt}<|im_end|> 
<|im_start|> assistant

请从下方下载文件(无需下载整个分支):

文件名 量化类型 文件大小 描述
dolphin-2.9.1-yi-1.5-9b-Q8_0.gguf Q8_0 9.38GB 极高品质,通常无需但提供最大可用量化级别
dolphin-2.9.1-yi-1.5-9b-Q6_K.gguf Q6_K 7.24GB 极高质量,近乎完美,推荐使用
dolphin-2.9.1-yi-1.5-9b-Q5_K_M.gguf Q5_K_M 6.25GB 高质量,推荐使用
dolphin-2.9.1-yi-1.5-9b-Q5_K_S.gguf Q5_K_S 6.10GB 高质量,推荐使用
dolphin-2.9.1-yi-1.5-9b-Q4_K_M.gguf Q4_K_M 5.32GB 良好质量,每个权重约使用4.83比特,推荐使用
dolphin-2.9.1-yi-1.5-9b-Q4_K_S.gguf Q4_K_S 5.07GB 质量略低但节省更多空间,推荐使用
dolphin-2.9.1-yi-1.5-9b-IQ4_NL.gguf IQ4_NL 5.04GB 尚可质量,体积略小于Q4_K_S且性能相近,推荐使用
dolphin-2.9.1-yi-1.5-9b-IQ4_XS.gguf IQ4_XS 4.78GB 尚可质量,体积小于Q4_K_S且性能相近,推荐使用
dolphin-2.9.1-yi-1.5-9b-Q3_K_L.gguf Q3_K_L 4.69GB 质量较低但可用,适合内存受限环境
dolphin-2.9.1-yi-1.5-9b-Q3_K_M.gguf Q3_K_M 4.32GB 质量更低
dolphin-2.9.1-yi-1.5-9b-IQ3_M.gguf IQ3_M 4.05GB 中低质量,新方法实现尚可性能,与Q3_K_M相当
dolphin-2.9.1-yi-1.5-9b-IQ3_S.gguf IQ3_S 3.91GB 较低质量,新方法实现尚可性能,推荐替代Q3_K_S量化,同等体积性能更优
dolphin-2.9.1-yi-1.5-9b-Q3_K_S.gguf Q3_K_S 3.89GB 低质量,不推荐使用
dolphin-2.9.1-yi-1.5-9b-IQ3_XS.gguf IQ3_XS 3.71GB 较低质量,新方法实现尚可性能,略优于Q3_K_S
dolphin-2.9.1-yi-1.5-9b-IQ3_XXS.gguf IQ3_XXS 3.47GB 较低质量,新方法实现尚可性能,与Q3量化相当
dolphin-2.9.1-yi-1.5-9b-Q2_K.gguf Q2_K 3.35GB 质量极低但出人意料地可用
dolphin-2.9.1-yi-1.5-9b-IQ2_M.gguf IQ2_M 3.09GB 质量极低,采用SOTA技术实现出人意料的可使用性
dolphin-2.9.1-yi-1.5-9b-IQ2_S.gguf IQ2_S 2.87GB 质量极低,采用SOTA技术实现可使用性
dolphin-2.9.1-yi-1.5-9b-IQ2_XS.gguf IQ2_XS 2.70GB 质量极低,采用SOTA技术实现可使用性
dolphin-2.9.1-yi-1.5-9b-IQ2_XXS.gguf IQ2_XXS 2.46GB 质量较低,采用SOTA技术实现可使用性
dolphin-2.9.1-yi-1.5-9b-IQ1_M.gguf IQ1_M 2.18GB 质量极低,推荐使用
dolphin-2.9.1-yi-1.5-9b-IQ1_S.gguf IQ1_S 2.01GB 质量极低,推荐使用

使用 huggingface-cli 下载

首先,请确保已安装 hugginface-cli:

pip install -U "huggingface_hub[cli]"

然后,您可以定位到所需的特定文件:

huggingface-cli download bartowski/dolphin-2.9.1-yi-1.5-9b-GGUF --include "dolphin-2.9.1-yi-1.5-9b-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:

huggingface-cli download bartowski/dolphin-2.9.1-yi-1.5-9b-GGUF --include "dolphin-2.9.1-yi-1.5-9b-Q8_0.gguf/*" --local-dir dolphin-2.9.1-yi-1.5-9b-Q8_0 --local-dir-use-symlinks False

您可以选择指定一个新的本地目录(dolphin-2.9.1-yi-1.5-9b-Q8_0),或者直接下载所有文件到当前目录(./)

如何选择量化文件?

Artefact2 提供了一份详细的性能对比图表说明,可在此查看

首先需要确定您能运行多大的模型。这需要根据您的RAM和/或VRAM容量来决定。

若希望模型以最快速度运行,建议将整个模型放入GPU的VRAM中。选择量化版本时,文件大小应比GPU总VRAM容量小1-2GB。

若追求极致质量,可将系统RAM与GPU的VRAM容量相加,然后选择比总容量小1-2GB的量化版本。

接下来需要决定使用"I-quant"还是"K-quant"。

若不想纠结细节,可直接选择K-quant格式(格式为'QX_K_X',例如Q5_K_M)。

如需深入了解细节,可参考这个极其实用的特性对照表:

llama.cpp 功能矩阵

简而言之,如果选择Q4以下量化级别,且使用cuBLAS(英伟达)或rocBLAS(AMD)运行,建议考虑I-quant格式(格式为IQX_X,例如IQ3_M)。这类新格式在相同体积下能提供更优性能。

I-quant也可在CPU和Apple Metal上运行,但速度会低于同级别的K-quant版本,因此需要在速度与性能之间做出权衡。

需特别注意:I-quant与Vulkan不兼容(后者也支持AMD显卡)。若使用AMD显卡,请确认使用的是rocBLAS构建版还是Vulkan构建版。截至本文撰写时,LM Studio已推出支持ROCm的预览版,其他推理引擎也有专门的ROCm构建版本。

想支持我的工作?欢迎访问我的ko-fi页面:https://ko-fi.com/bartowski

项目介绍

基于llama.cpp b2928生成的imatrix量化模型,提供Q8_0到IQ1_S等多种规格GGUF文件,适配不同性能需求,支持文本生成任务。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新