基于llama.cpp b2928生成的imatrix量化模型,提供Q8_0到IQ1_S等多种规格GGUF文件,适配不同性能需求,支持文本生成任务。【此简介由AI生成】
license: apache-2.0 base_model: 01-ai/Yi-1.5-9B tags:
- generated_from_trainer
- axolotl datasets:
- cognitivecomputations/Dolphin-2.9
- teknium/OpenHermes-2.5
- m-a-p/CodeFeedback-Filtered-Instruction
- cognitivecomputations/dolphin-coder
- cognitivecomputations/samantha-data
- microsoft/orca-math-word-problems-200k
- Locutusque/function-calling-chatml
- internlm/Agent-FLAN quantized_by: bartowski pipeline_tag: text-generation
dolphin-2.9.1-yi-1.5-9b 的 Llamacpp 矩阵量化版本
原始模型:https://huggingface.co/cognitivecomputations/dolphin-2.9.1-yi-1.5-9b
所有量化版本均采用矩阵优化选项,数据集来源自此处
提示词格式
<|im_start|> system
{system_prompt}<|im_end|>
<|im_start|> user
{prompt}<|im_end|>
<|im_start|> assistant
请从下方下载文件(无需下载整个分支):
使用 huggingface-cli 下载
首先,请确保已安装 hugginface-cli:
pip install -U "huggingface_hub[cli]"
然后,您可以定位到所需的特定文件:
huggingface-cli download bartowski/dolphin-2.9.1-yi-1.5-9b-GGUF --include "dolphin-2.9.1-yi-1.5-9b-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False
如果模型大小超过50GB,它会被分割成多个文件。要将所有文件下载到本地文件夹,请运行:
huggingface-cli download bartowski/dolphin-2.9.1-yi-1.5-9b-GGUF --include "dolphin-2.9.1-yi-1.5-9b-Q8_0.gguf/*" --local-dir dolphin-2.9.1-yi-1.5-9b-Q8_0 --local-dir-use-symlinks False
您可以选择指定一个新的本地目录(dolphin-2.9.1-yi-1.5-9b-Q8_0),或者直接下载所有文件到当前目录(./)
如何选择量化文件?
Artefact2 提供了一份详细的性能对比图表说明,可在此查看
首先需要确定您能运行多大的模型。这需要根据您的RAM和/或VRAM容量来决定。
若希望模型以最快速度运行,建议将整个模型放入GPU的VRAM中。选择量化版本时,文件大小应比GPU总VRAM容量小1-2GB。
若追求极致质量,可将系统RAM与GPU的VRAM容量相加,然后选择比总容量小1-2GB的量化版本。
接下来需要决定使用"I-quant"还是"K-quant"。
若不想纠结细节,可直接选择K-quant格式(格式为'QX_K_X',例如Q5_K_M)。
如需深入了解细节,可参考这个极其实用的特性对照表:
简而言之,如果选择Q4以下量化级别,且使用cuBLAS(英伟达)或rocBLAS(AMD)运行,建议考虑I-quant格式(格式为IQX_X,例如IQ3_M)。这类新格式在相同体积下能提供更优性能。
I-quant也可在CPU和Apple Metal上运行,但速度会低于同级别的K-quant版本,因此需要在速度与性能之间做出权衡。
需特别注意:I-quant与Vulkan不兼容(后者也支持AMD显卡)。若使用AMD显卡,请确认使用的是rocBLAS构建版还是Vulkan构建版。截至本文撰写时,LM Studio已推出支持ROCm的预览版,其他推理引擎也有专门的ROCm构建版本。
想支持我的工作?欢迎访问我的ko-fi页面:https://ko-fi.com/bartowski