基于Guanaco 7B Uncensored的GGUF量化模型,适用于本地CPU+GPU推理。提供多种量化级别,兼容llama.cpp等客户端,支持对话交互,满足多样化部署需求。【此简介由AI生成】
language:
-
en license: apache-2.0 library_name: transformers datasets:
-
Fredithefish/openassistant-guanaco-unfiltered model_name: Guanaco 7B Uncensored base_model: Fredithefish/Guanaco-7b-Uncensored inference: false model_creator: Fredithefish model_type: llama pipeline_tag: conversational prompt_template: '### Human: {prompt}
Assistant:
' quantized_by: TheBloke
TheBloke的大型语言模型工作获得了安德森·霍洛维茨(a16z)的慷慨资助
Guanaco 7B Uncensored - GGUF
- 模型创作者:Fredithefish
- 原始模型:Guanaco 7B Uncensored
模型描述
本仓库包含Fredithefish的Guanaco 7B Uncensored的GGUF格式模型文件。
关于GGUF
GGUF是由llama.cpp团队于2023年8月21日推出的新格式。它取代了不再受llama.cpp支持的GGML格式。GGUF相比GGML具有诸多优势,例如更好的分词处理和对特殊令牌的支持。同时它还支持元数据,并且设计为可扩展格式。
以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp。GGUF的源项目。提供命令行界面和服务器选项。
- text-generation-webui,最广泛使用的Web界面,具有众多功能和强大扩展。支持GPU加速。
- KoboldCpp,功能全面的Web界面,支持全平台和GPU架构的加速。特别适用于故事创作。
- LM Studio,Windows和macOS(Silicon芯片)上易用且功能强大的本地图形界面,支持GPU加速。
- LoLLMS Web UI,出色的Web界面,具有许多独特功能,包括完整的模型库便于模型选择。
- Faraday.dev,Windows和macOS(Silicon和Intel芯片)上美观易用的角色聊天图形界面,支持GPU加速。
- ctransformers,支持GPU加速的Python库,提供LangChain支持和OpenAI兼容的AI服务器。
- llama-cpp-python,支持GPU加速的Python库,提供LangChain支持和OpenAI兼容的API服务器。
- candle,专注于性能的Rust机器学习框架,包含GPU支持且易于使用。
可用仓库
- 支持 GPU 推理的 AWQ 模型
- 支持 GPU 推理的 GPTQ 模型,提供多种量化参数选项
- 支持 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- Fredithefish 原始的未量化 fp16 模型(pytorch 格式),适用于 GPU 推理及后续转换
提示词模板:Guanaco
### Human: {prompt}
### Assistant:
许可协议
源模型的创建者将其许可列为 apache-2.0,因此本次量化处理采用了相同的许可协议。
由于该模型基于 Llama 2 构建,同样需要遵守 Meta Llama 2 的许可条款,相关许可文件已一并包含在内。因此应认为本模型声明同时受两种许可协议约束。我们已就双重许可问题联系 Hugging Face 寻求澄清,但目前尚未获得官方立场说明。若此情况发生变化,或 Meta 对此提出任何指导意见,我们将相应更新本节内容。
在此期间,任何关于许可的疑问(特别是两种许可如何交互的问题),请直接咨询原始模型仓库:Fredithefish's Guanaco 7B Uncensored。
兼容性
这些量化后的 GGUFv2 文件与 8 月 27 日及之后版本的 llama.cpp 兼容(对应提交记录 d0cee0d36d5be95a0d9088b674dbb27354107221)
同时兼容多数第三方 UI 及库文件,请参阅本文档顶部的兼容列表。
量化方法说明
点击查看详情
新提供的量化方法包括:
- GGML_TYPE_Q2_K - "type-1" 2比特量化,超级块包含16个区块,每个区块含16个权重。区块缩放因子和最小值采用4比特量化。最终实现等效每权重2.5625比特(bpw)
- GGML_TYPE_Q3_K - "type-0" 3比特量化,超级块包含16个区块,每个区块含16个权重。缩放因子采用6比特量化。最终实现等效每权重3.4375比特
- GGML_TYPE_Q4_K - "type-1" 4比特量化,超级块包含8个区块,每个区块含32个权重。缩放因子和最小值采用6比特量化。最终实现等效每权重4.5比特
- GGML_TYPE_Q5_K - "type-1" 5比特量化。采用与GGML_TYPE_Q4_K相同的超级块结构,实现等效每权重5.5比特
- GGML_TYPE_Q6_K - "type-0" 6比特量化。超级块包含16个区块,每个区块含16个权重。缩放因子采用8比特量化。最终实现等效每权重6.5625比特
请参阅下文提供的文件表格了解各文件所采用的量化方法及具体细节。
提供的文件
| 文件名 | 量化方法 | 位宽 | 文件大小 | 最大所需内存 | 使用场景 |
|---|---|---|---|---|---|
| guanaco-7b-uncensored.Q2_K.gguf | Q2_K | 2 | 2.83 GB | 5.33 GB | 最小体积,显著质量损失 - 不推荐用于多数场景 |
| guanaco-7b-uncensored.Q3_K_S.gguf | Q3_K_S | 3 | 2.95 GB | 5.45 GB | 极小体积,高质量损失 |
| guanaco-7b-uncensored.Q3_K_M.gguf | Q3_K_M | 3 | 3.30 GB | 5.80 GB | 极小体积,高质量损失 |
| guanaco-7b-uncensored.Q3_K_L.gguf | Q3_K_L | 3 | 3.60 GB | 6.10 GB | 小体积,较大质量损失 |
| guanaco-7b-uncensored.Q4_0.gguf | Q4_0 | 4 | 3.83 GB | 6.33 GB | 传统方法;小体积,极高质量损失 - 建议优先选用 Q3_K_M |
| guanaco-7b-uncensored.Q4_K_S.gguf | Q4_K_S | 4 | 3.86 GB | 6.36 GB | 小体积,较高质量损失 |
| guanaco-7b-uncensored.Q4_K_M.gguf | Q4_K_M | 4 | 4.08 GB | 6.58 GB | 中等体积,平衡的质量 - 推荐使用 |
| guanaco-7b-uncensored.Q5_0.gguf | Q5_0 | 5 | 4.65 GB | 7.15 GB | 传统方法;中等体积,平衡的质量 - 建议优先选用 Q4_K_M |
| guanaco-7b-uncensored.Q5_K_S.gguf | Q5_K_S | 5 | 4.65 GB | 7.15 GB | 大体积,低质量损失 - 推荐使用 |
| guanaco-7b-uncensored.Q5_K_M.gguf | Q5_K_M | 5 | 4.78 GB | 7.28 GB | 大体积,极低质量损失 - 推荐使用 |
| guanaco-7b-uncensored.Q6_K.gguf | Q6_K | 6 | 5.53 GB | 8.03 GB | 超大体积,极轻微质量损失 |
| guanaco-7b-uncensored.Q8_0.gguf | Q8_0 | 8 | 7.16 GB | 9.66 GB | 超大体积,极轻微质量损失 - 不推荐使用 |
注意:上述内存数据基于未启用GPU卸载的情况。若将层级卸载至GPU,将会降低内存使用量并转而使用显存。
如何下载 GGUF 文件
手动下载用户请注意: 通常您不需要克隆整个代码库!我们提供了多种量化格式,大多数用户只需选择并下载单个文件即可。
以下客户端/库会自动为您下载模型,并显示可选的模型列表:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui 中操作
在 Download Model 选项下,您可以输入模型仓库名称:TheBloke/Guanaco-7B-Uncensored-GGUF,并在下方指定要下载的文件名,例如:guanaco-7b-uncensored.q4_K_M.gguf。
然后点击 Download 即可。
通过命令行批量下载文件
建议使用 huggingface-hub Python 库进行下载:
pip3 install huggingface-hub>=0.17.1
然后,您可以使用如下命令高速下载任意单个模型文件到当前目录:
huggingface-cli download TheBloke/Guanaco-7B-Uncensored-GGUF guanaco-7b-uncensored.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
您还可以使用模式一次性下载多个文件:
huggingface-cli download TheBloke/Guanaco-7B-Uncensored-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用 huggingface-cli 下载的更多文档,请参阅:HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。
若要在高速网络连接(1Gbit/s 或更高)下加速下载,请安装 hf_transfer:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Guanaco-7B-Uncensored-GGUF guanaco-7b-uncensored.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLI 用户:在执行下载命令前,请先使用 set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 命令。
示例 llama.cpp 命令
请确保您使用的 llama.cpp 版本为 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高版本提交。
./main -ngl 32 -m guanaco-7b-uncensored.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Human: {prompt}\n### Assistant:"
将 -ngl 32 中的数字更改为需要卸载到 GPU 的层数。若无需 GPU 加速,请直接移除该参数。
将 -c 4096 调整为所需的序列长度。对于扩展序列模型(如 8K、16K、32K),所需的 RoPE 缩放参数会从 GGUF 文件中自动读取,并由 llama.cpp 自动设置。
若希望进行对话式交互,请将 -p <提示词> 参数替换为 -i -ins。
关于其他参数及使用方法,请参阅 llama.cpp 官方文档
如何在 text-generation-webui 中运行
详细说明请参见:text-generation-webui/docs/llama.cpp.md
如何通过 Python 代码运行
您可以通过 llama-cpp-python 或 ctransformers 库在 Python 中使用 GGUF 模型。
使用 ctransformers 从 Python 加载本模型
首先安装依赖包
# Base ctransformers with no GPU acceleration
pip install ctransformers>=0.2.24
# Or with CUDA GPU acceleration
pip install ctransformers[cuda]>=0.2.24
# Or with ROCm GPU acceleration
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# Or with Metal GPU acceleration for macOS systems
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
加载这些 GGUF 模型的简单示例代码
from ctransformers import AutoModelForCausalLM
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Guanaco-7B-Uncensored-GGUF", model_file="guanaco-7b-uncensored.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
如何与 LangChain 结合使用
以下是在 LangChain 中使用 llama-cpp-python 或 ctransformers 的指南:
Discord 社区
如需获取进一步支持,并参与关于这些模型及人工智能的讨论,欢迎加入我们的社区:
致谢与贡献方式
感谢 chirper.ai 团队!
感谢来自 gpus.llm-utils.org 的 Clay!
许多人询问是否可以提供资助。我乐于提供模型并帮助他人,也非常希望能够投入更多时间于此,并拓展至像微调/训练这样的新项目。
如果您有能力并愿意提供资助,这将极大地支持我继续提供更多模型,并着手开展新的人工智能项目。
资助者将在所有人工智能/大语言模型/模型相关问题和请求上获得优先支持,并可访问私人 Discord 房间,以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感谢所有慷慨的赞助者和资助者!
再次感谢 a16z 提供的慷慨资助。
原始模型卡片:Fredithefish 的 Guanaco 7B 无审查版

✨ Guanaco - 7B - 无审查版 ✨
Guanaco-7B-Uncensored 基于 Llama-2-7b 作为基础模型,在未过滤的 Guanaco 数据集上进行了 4 轮微调。
该模型在英语以外的语言上表现不佳。
请注意:本模型旨在提供无内容过滤或审查的响应,其生成的答案不会出现拒绝回答的情况。
特别鸣谢
感谢 AutoMeta 为我提供了训练此模型所需的计算资源。
提示词模板
### Human: {prompt} ### Assistant:
数据集
该模型基于 Guanaco 无过滤数据集的 V2 版本进行了精细调优。