基于FBL的Una Cybertron 7B v2模型,提供多种量化格式(Q2_K至Q8_0),适配llama.cpp、text-generation-webui等客户端,支持CPU+GPU推理,适合本地高效部署。【此简介由AI生成】
base_model: fblgit/una-cybertron-7b-v2-bf16 datasets:
-
fblgit/tree-of-knowledge
-
Open-Orca/SlimOrca-Dedup
-
allenai/ultrafeedback_binarized_cleaned inference: false library_name: transformers license: apache-2.0 model_creator: FBL model_name: Una Cybertron 7B v2 model_type: mistral prompt_template: '<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
' quantized_by: TheBloke tags:
-
juanako
-
UNA
-
cybertron
-
fbl
TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)基金慷慨支持
Una Cybertron 7B v2 - GGUF
- 模型创建者:FBL
- 原始模型:Una Cybertron 7B v2
模型描述
本仓库包含FBL的Una Cybertron 7B v2的GGUF格式模型文件。
这些量化文件由Massed Compute慷慨提供的硬件支持完成。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代方案,后者已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp。GGUF的源项目。提供CLI和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有众多功能和强大扩展。支持GPU加速。
- KoboldCpp,功能全面的Web UI,支持全平台和GPU架构的加速。特别适用于故事创作。
- GPT4All,免费开源的本地运行GUI,支持Windows、Linux和macOS的完整GPU加速。
- LM Studio,易于使用且功能强大的本地GUI,适用于Windows和macOS(Silicon),支持GPU加速。Linux版本已于2023年11月27日进入测试阶段。
- LoLLMS Web UI,优秀的Web UI,具有许多独特功能,包括完整的模型库便于模型选择。
- Faraday.dev,美观易用的角色聊天GUI,支持Windows和macOS(Silicon及Intel),具备GPU加速。
- llama-cpp-python,支持GPU加速的Python库,提供LangChain支持和OpenAI兼容的API服务器。
- candle,专注于性能的Rust ML框架,支持GPU加速且易于使用。
- ctransformers,支持GPU加速的Python库,提供LangChain支持和OpenAI兼容的AI服务器。请注意,截至撰写时(2023年11月27日),ctransformers已久未更新且不支持许多新近模型。
可用仓库
- 用于GPU推理的AWQ模型
- 支持多种量化参数的GPTQ模型,适用于GPU推理
- 提供2、3、4、5、6和8位GGUF模型,支持CPU+GPU混合推理
- FBL官方未量化的fp16精度PyTorch格式模型,适用于GPU推理及后续转换
提示词模板:ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
兼容性
这些量化后的 GGUFv2 文件与自 8 月 27 日 commit d0cee0d 起的 llama.cpp 兼容。
它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超级块包含16个块,每个块有16个权重。块比例和最小值用4位量化。最终有效每权重使用2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超级块包含16个块,每个块有16个权重。比例用6位量化。最终使用3.4375 bpw
- GGML_TYPE_Q4_K - "type-1" 4位量化,超级块包含8个块,每个块有32个权重。比例和最小值用6位量化。最终使用4.5 bpw
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,结果为5.5 bpw
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块有16个权重。比例用8位量化。最终使用6.5625 bpw
请参考下文提供的文件表格,查看各文件使用的具体方法及使用方式。
提供的文件
| 名称 | 量化方法 | 位数 | 大小 | 最大所需内存 | 使用场景 |
|---|---|---|---|---|---|
| una-cybertron-7b-v2-bf16.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小尺寸,显著质量损失 - 不推荐用于大多数场景 |
| una-cybertron-7b-v2-bf16.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 极小尺寸,高质量损失 |
| una-cybertron-7b-v2-bf16.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 极小尺寸,高质量损失 |
| una-cybertron-7b-v2-bf16.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小尺寸,明显质量损失 |
| una-cybertron-7b-v2-bf16.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 传统方法;小尺寸,极高质量损失 - 建议优先使用 Q3_K_M |
| una-cybertron-7b-v2-bf16.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小尺寸,较大质量损失 |
| una-cybertron-7b-v2-bf16.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等尺寸,平衡质量 - 推荐使用 |
| una-cybertron-7b-v2-bf16.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 传统方法;中等尺寸,平衡质量 - 建议优先使用 Q4_K_M |
| una-cybertron-7b-v2-bf16.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大尺寸,低质量损失 - 推荐使用 |
| una-cybertron-7b-v2-bf16.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大尺寸,极低质量损失 - 推荐使用 |
| una-cybertron-7b-v2-bf16.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 超大尺寸,极低质量损失 |
| una-cybertron-7b-v2-bf16.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 超大尺寸,极低质量损失 - 不推荐使用 |
注意:上述内存数据假设未启用GPU卸载。如果将层卸载到GPU,这将减少内存使用量并转而使用VRAM。
如何下载 GGUF 文件
手动下载用户请注意: 通常您不需要克隆整个代码库!我们提供了多种量化格式,大多数用户只需选择并下载单个文件即可。
以下客户端/库会自动为您下载模型,并显示可选的模型列表:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui 中操作
在 Download Model 下方,您可以输入模型仓库名称:TheBloke/una-cybertron-7B-v2-GGUF,并在下方输入要下载的具体文件名,例如:una-cybertron-7b-v2-bf16.Q4_K_M.gguf。
然后点击 Download 按钮。
通过命令行批量下载文件
建议使用 huggingface-hub Python 库:
pip3 install huggingface-hub
然后,您可以通过如下命令高速下载任意单个模型文件至当前目录:
huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF una-cybertron-7b-v2-bf16.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法(点击阅读)
您还可以使用模式一次性下载多个文件:
huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用 huggingface-cli 下载的更多文档,请参阅:HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。
若要在高速网络连接(1Gbit/s 或更高)下加速下载,请安装 hf_transfer:
pip3 install hf_transfer
并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF una-cybertron-7b-v2-bf16.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows 命令行用户:可在执行下载命令前通过运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。
示例 llama.cpp 命令
请确保您使用的 llama.cpp 版本基于 d0cee0d 或更高提交。
./main -ngl 35 -m una-cybertron-7b-v2-bf16.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
将 -ngl 32 中的数值修改为需要卸载到 GPU 的层数。若未启用 GPU 加速,请直接删除此参数。
将 -c 32768 中的数值调整为所需的序列长度。对于扩展序列模型(例如 8K、16K、32K),所需的 RoPE 缩放参数会从 GGUF 文件中自动读取并由 llama.cpp 自动设置。请注意,更长的序列长度会显著增加资源消耗,可能需要适当调低该数值。
若希望进行对话式交互,请将 -p <PROMPT> 参数替换为 -i -ins。
关于其他参数的使用方法,请参阅 llama.cpp 文档
如何在 text-generation-webui 中运行
更多说明请参阅 text-generation-webui 文档:text-generation-webui/docs/04 ‐ Model Tab.md
如何通过 Python 代码运行
可以通过 llama-cpp-python 或 ctransformers 库在 Python 中使用 GGUF 模型。请注意(截至 2023 年 11 月 27 日),ctransformers 库近期未更新,可能不兼容部分新模型,建议优先选用 llama-cpp-python。
通过 llama-cpp-python 加载模型的方法
完整文档请参见:llama-cpp-python 文档
首先安装软件包
根据您的系统选择以下命令之一执行:
# Base ctransformers with no GPU acceleration
pip install llama-cpp-python
# With NVidia CUDA acceleration
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# Or with OpenBLAS acceleration
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# Or with CLBLast acceleration
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# Or with AMD ROCm GPU acceleration (Linux only)
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# Or with Metal GPU acceleration for macOS systems only
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# In windows, to set the variables CMAKE_ARGS in PowerShell, follow this format; eg for NVidia CUDA:
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python
简单的 llama-cpp-python 示例代码
from llama_cpp import Llama
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
model_path="./una-cybertron-7b-v2-bf16.Q4_K_M.gguf", # Download the model file first
n_ctx=32768, # The max sequence length to use - note that longer sequence lengths require much more resources
n_threads=8, # The number of CPU threads to use, tailor to your system and the resulting performance
n_gpu_layers=35 # The number of layers to offload to GPU, if you have GPU acceleration available
)
# Simple inference example
output = llm(
"<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant", # Prompt
max_tokens=512, # Generate up to 512 tokens
stop=["</s>"], # Example stop token - not necessarily correct for this specific model! Please check before using.
echo=True # Whether to echo the prompt
)
# Chat Completion API
llm = Llama(model_path="./una-cybertron-7b-v2-bf16.Q4_K_M.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
如何与 LangChain 配合使用
以下是在 LangChain 中使用 llama-cpp-python 和 ctransformers 的指南:
Discord
如需获取进一步支持,并参与关于这些模型及人工智能的讨论,欢迎加入我们的社区:
致谢与贡献方式
感谢 chirper.ai 团队!
感谢来自 gpus.llm-utils.org 的 Clay!
许多人询问是否可以提供贡献。我乐于提供模型并帮助他人,非常希望能够投入更多时间从事这项工作,并拓展到像微调/训练这样的新项目中。
如果您有能力且愿意贡献,我们将不胜感激,这有助于我持续提供更多模型,并着手开展新的人工智能项目。
捐赠者将在所有人工智能/大语言模型/模型相关问题和请求上获得优先支持,并可访问私人 Discord 房间,以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros
感谢我所有慷慨的赞助者和捐赠者!
再次感谢 a16z 提供的慷慨资助。
原始模型卡片:FBL 的 Una Cybertron 7B v2
模型卡片:una-cybertron-7b-v2-bf16(UNA:统一神经对齐)
我们强势回归,推出 Cybertron 7B v2——一款基于 MistralAI 的 7B 模型,是该系列中的佼佼者。通过在多数据集上进行 SFT、DPO 和 UNA(统一神经对齐)训练而成。
它在 HF 排行榜上以 69.67+ 的分数【精确】排名 #1,同时在所有规模模型中位列 #8。
- v1 版本于 2023 年 12 月 2 日以 69.43 分夺得 #1……随后虽有多款模型发布……但唯有 CYBERTRON 屹立不倒!
- v2 版本于 2023 年 12 月 5 日以 69.67 分蝉联 #1
| 模型 | 平均分 | ARC (25-shot) | HellaSwag (10-shot) | MMLU (5-shot) | TruthfulQA (MC) (0-shot) | Winogrande (5-shot) | GSM8K (5-shot) |
|---|---|---|---|---|---|---|---|
| mistralai/Mistral-7B-v0.1 | 60.97 | 59.98 | 83.31 | 64.16 | 42.15 | 78.37 | 37.83 |
| Intel/neural-chat-7b-v3-2 | 68.29 | 67.49 | 83.92 | 63.55 | 59.68 | 79.95 | 55.12 |
| perlthoughts/Chupacabra-7B-v2 | 63.54 | 66.47 | 85.17 | 64.49 | 57.6 | 79.16 | 28.35 |
| fblgit/una-cybertron-7b-v1-fp16 | 69.49 | 68.43 | 85.85 | 63.34 | 63.28 | 80.90 | 55.12 |
| fblgit/una-cybertron-7b-v2-bf16 | 69.67 | 68.26 | 85.?4 | 63.23 | 64.63 | 81.37 | 55.04 |
该模型在数学、逻辑、推理方面表现卓越,整体智能水平出众。能够对上下文和提示进行深度推理,给人以绝不遗漏细节的印象。
模型详情
采用 UNA:统一神经对齐技术进行训练(技术论文即将发布)。
- UNA 不是什么?它不是层级融合模型,也非 SLERP 或 SLURP 等类似方法。
- UNA 是什么?一种驯服模型的公式与技术。
- 代码和论文何时发布?待我们有空时,欢迎贡献代码以加速进程。
模型描述
- 开发方: juanako.ai
- 作者: Xavier M.
- 投资者联系 请点击此处联系
- 模型类型: MistralAI 7B
- 由Cybertron的H100算力支持 经过数小时训练完成
提示说明
该模型表现优异,在绝大多数提示格式下均能良好运行,但ChatML格式和Alpaca系统提示能获得最佳效果
<|im_start|>system
- You are a helpful assistant chatbot trained by MosaicML.
- You answer questions.
- You are excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- You are more than just an information source, you are also able to write poetry, short stories, and make jokes.<|im_end|>
<|im_start|>user
Explain QKV<|im_end|>
<|im_start|>assistant
### Assistant: I am StableVicuna, a large language model created by CarperAI. I am here to chat!
### Human: Explain QKV
### Assistant:
[Round <|round|>]
问:Explain QKV
答:
[Round <|round|>]
Question:Explain QKV
Answer:
Question:Explain QKV
Answer:
框架版本
- Transformers 4.35.0-UNA
- Pytorch 2.1.0
- Datasets 2.14.6
- Tokenizers 0.14.1
引用说明
若您认为Cybertron、Juanako或我们的任何模型对您有所帮助(特别是在大型商业项目中使用,或对模型进行克隆/合并时),请务必注明引用:
@misc{unacybertron7b,
title={Cybertron: Uniform Neural Alignment},
author={Xavier Murias},
year={2023},
publisher = {HuggingFace},
journal = {HuggingFace repository},
howpublished = {\url{https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16}},
}
特别感谢 @TheBloke 和 @bartowski 为模型转换所做的贡献以及他们对社区的支持。衷心感谢!