基于FBL的Una Cybertron 7B v2模型，提供多种量化格式（Q2_K至Q8_0），适配llama.cpp、text-generation-webui等客户端，支持CPU+GPU推理，适合本地高效部署。【此简介由AI生成】

2cf33d8a创建于 2025年1月26日3次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload README.md	1 年前
README.md	Upload README.md	1 年前
config.json	Upload README.md	1 年前
configuration.json	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q2_K.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q3_K_L.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q3_K_M.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q3_K_S.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q4_0.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q4_K_M.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q4_K_S.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q5_0.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q5_K_M.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q5_K_S.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q6_K.ggufLFS	Upload README.md	1 年前
una-cybertron-7b-v2-bf16.Q8_0.ggufLFS	Upload README.md	1 年前

自动翻译

base_model: fblgit/una-cybertron-7b-v2-bf16 datasets:

fblgit/tree-of-knowledge
Open-Orca/SlimOrca-Dedup
allenai/ultrafeedback_binarized_cleaned inference: false library_name: transformers license: apache-2.0 model_creator: FBL model_name: Una Cybertron 7B v2 model_type: mistral prompt_template: '<|im_start|>system

{system_message}<|im_end|>

<|im_start|>user

{prompt}<|im_end|>

<|im_start|>assistant

' quantized_by: TheBloke tags:
juanako
UNA
cybertron
fbl

交流与支持：TheBloke的Discord服务器

想要贡献？访问TheBloke的Patreon页面

TheBloke的LLM工作得到了安德森·霍洛维茨（a16z）基金慷慨支持

Una Cybertron 7B v2 - GGUF

模型创建者：FBL
原始模型：Una Cybertron 7B v2

模型描述

本仓库包含FBL的Una Cybertron 7B v2的GGUF格式模型文件。

这些量化文件由Massed Compute慷慨提供的硬件支持完成。

关于GGUF

GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代方案，后者已不再受llama.cpp支持。

以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp。GGUF的源项目。提供CLI和服务器选项。
text-generation-webui，最广泛使用的Web UI，具有众多功能和强大扩展。支持GPU加速。
KoboldCpp，功能全面的Web UI，支持全平台和GPU架构的加速。特别适用于故事创作。
GPT4All，免费开源的本地运行GUI，支持Windows、Linux和macOS的完整GPU加速。
LM Studio，易于使用且功能强大的本地GUI，适用于Windows和macOS（Silicon），支持GPU加速。Linux版本已于2023年11月27日进入测试阶段。
LoLLMS Web UI，优秀的Web UI，具有许多独特功能，包括完整的模型库便于模型选择。
Faraday.dev，美观易用的角色聊天GUI，支持Windows和macOS（Silicon及Intel），具备GPU加速。
llama-cpp-python，支持GPU加速的Python库，提供LangChain支持和OpenAI兼容的API服务器。
candle，专注于性能的Rust ML框架，支持GPU加速且易于使用。
ctransformers，支持GPU加速的Python库，提供LangChain支持和OpenAI兼容的AI服务器。请注意，截至撰写时（2023年11月27日），ctransformers已久未更新且不支持许多新近模型。

可用仓库

提示词模板：ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

兼容性

这些量化后的 GGUFv2 文件与自 8 月 27 日 commit d0cee0d 起的 llama.cpp 兼容。

它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。

量化方法说明

点击查看详情

可用的新方法包括：

GGML_TYPE_Q2_K - "type-1" 2位量化，超级块包含16个块，每个块有16个权重。块比例和最小值用4位量化。最终有效每权重使用2.5625位（bpw）
GGML_TYPE_Q3_K - "type-0" 3位量化，超级块包含16个块，每个块有16个权重。比例用6位量化。最终使用3.4375 bpw
GGML_TYPE_Q4_K - "type-1" 4位量化，超级块包含8个块，每个块有32个权重。比例和最小值用6位量化。最终使用4.5 bpw
GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构，结果为5.5 bpw
GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块，每个块有16个权重。比例用8位量化。最终使用6.5625 bpw

请参考下文提供的文件表格，查看各文件使用的具体方法及使用方式。

提供的文件

名称	量化方法	位数	大小	最大所需内存	使用场景
una-cybertron-7b-v2-bf16.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小尺寸，显著质量损失 - 不推荐用于大多数场景
una-cybertron-7b-v2-bf16.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	极小尺寸，高质量损失
una-cybertron-7b-v2-bf16.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	极小尺寸，高质量损失
una-cybertron-7b-v2-bf16.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小尺寸，明显质量损失
una-cybertron-7b-v2-bf16.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	传统方法；小尺寸，极高质量损失 - 建议优先使用 Q3_K_M
una-cybertron-7b-v2-bf16.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小尺寸，较大质量损失
una-cybertron-7b-v2-bf16.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等尺寸，平衡质量 - 推荐使用
una-cybertron-7b-v2-bf16.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	传统方法；中等尺寸，平衡质量 - 建议优先使用 Q4_K_M
una-cybertron-7b-v2-bf16.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大尺寸，低质量损失 - 推荐使用
una-cybertron-7b-v2-bf16.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大尺寸，极低质量损失 - 推荐使用
una-cybertron-7b-v2-bf16.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	超大尺寸，极低质量损失
una-cybertron-7b-v2-bf16.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	超大尺寸，极低质量损失 - 不推荐使用

注意：上述内存数据假设未启用GPU卸载。如果将层卸载到GPU，这将减少内存使用量并转而使用VRAM。

如何下载 GGUF 文件

手动下载用户请注意： 通常您不需要克隆整个代码库！我们提供了多种量化格式，大多数用户只需选择并下载单个文件即可。

以下客户端/库会自动为您下载模型，并显示可选的模型列表：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中操作

在 Download Model 下方，您可以输入模型仓库名称：TheBloke/una-cybertron-7B-v2-GGUF，并在下方输入要下载的具体文件名，例如：una-cybertron-7b-v2-bf16.Q4_K_M.gguf。

然后点击 Download 按钮。

通过命令行批量下载文件

建议使用 huggingface-hub Python 库：

pip3 install huggingface-hub

然后，您可以通过如下命令高速下载任意单个模型文件至当前目录：

huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF una-cybertron-7b-v2-bf16.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的huggingface-cli下载用法（点击阅读）

您还可以使用模式一次性下载多个文件：

huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。

若要在高速网络连接（1Gbit/s 或更高）下加速下载，请安装 hf_transfer：

pip3 install hf_transfer

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/una-cybertron-7B-v2-GGUF una-cybertron-7b-v2-bf16.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用户：可在执行下载命令前通过运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。

示例 `llama.cpp` 命令

请确保您使用的 llama.cpp 版本基于 d0cee0d 或更高提交。

./main -ngl 35 -m una-cybertron-7b-v2-bf16.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

将 -ngl 32 中的数值修改为需要卸载到 GPU 的层数。若未启用 GPU 加速，请直接删除此参数。

将 -c 32768 中的数值调整为所需的序列长度。对于扩展序列模型（例如 8K、16K、32K），所需的 RoPE 缩放参数会从 GGUF 文件中自动读取并由 llama.cpp 自动设置。请注意，更长的序列长度会显著增加资源消耗，可能需要适当调低该数值。

若希望进行对话式交互，请将 -p <PROMPT> 参数替换为 -i -ins。

关于其他参数的使用方法，请参阅 llama.cpp 文档

如何在 `text-generation-webui` 中运行

更多说明请参阅 text-generation-webui 文档：text-generation-webui/docs/04 ‐ Model Tab.md

如何通过 Python 代码运行

可以通过 llama-cpp-python 或 ctransformers 库在 Python 中使用 GGUF 模型。请注意（截至 2023 年 11 月 27 日），ctransformers 库近期未更新，可能不兼容部分新模型，建议优先选用 llama-cpp-python。

通过 llama-cpp-python 加载模型的方法

完整文档请参见：llama-cpp-python 文档

首先安装软件包

根据您的系统选择以下命令之一执行：

# Base ctransformers with no GPU acceleration
pip install llama-cpp-python
# With NVidia CUDA acceleration
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# Or with OpenBLAS acceleration
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# Or with CLBLast acceleration
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# Or with AMD ROCm GPU acceleration (Linux only)
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# Or with Metal GPU acceleration for macOS systems only
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python

# In windows, to set the variables CMAKE_ARGS in PowerShell, follow this format; eg for NVidia CUDA:
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python

简单的 llama-cpp-python 示例代码

from llama_cpp import Llama

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
  model_path="./una-cybertron-7b-v2-bf16.Q4_K_M.gguf",  # Download the model file first
  n_ctx=32768,  # The max sequence length to use - note that longer sequence lengths require much more resources
  n_threads=8,            # The number of CPU threads to use, tailor to your system and the resulting performance
  n_gpu_layers=35         # The number of layers to offload to GPU, if you have GPU acceleration available
)

# Simple inference example
output = llm(
  "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant", # Prompt
  max_tokens=512,  # Generate up to 512 tokens
  stop=["</s>"],   # Example stop token - not necessarily correct for this specific model! Please check before using.
  echo=True        # Whether to echo the prompt
)

# Chat Completion API

llm = Llama(model_path="./una-cybertron-7b-v2-bf16.Q4_K_M.gguf", chat_format="llama-2")  # Set chat_format according to the model you are using
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

如何与 LangChain 配合使用

以下是在 LangChain 中使用 llama-cpp-python 和 ctransformers 的指南：

Discord

如需获取进一步支持，并参与关于这些模型及人工智能的讨论，欢迎加入我们的社区：

TheBloke AI 的 Discord 服务器

致谢与贡献方式

感谢 chirper.ai 团队！

感谢来自 gpus.llm-utils.org 的 Clay！

许多人询问是否可以提供贡献。我乐于提供模型并帮助他人，非常希望能够投入更多时间从事这项工作，并拓展到像微调/训练这样的新项目中。

如果您有能力且愿意贡献，我们将不胜感激，这有助于我持续提供更多模型，并着手开展新的人工智能项目。

捐赠者将在所有人工智能/大语言模型/模型相关问题和请求上获得优先支持，并可访问私人 Discord 房间，以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros

感谢我所有慷慨的赞助者和捐赠者！

再次感谢 a16z 提供的慷慨资助。

原始模型卡片：FBL 的 Una Cybertron 7B v2

模型卡片：una-cybertron-7b-v2-bf16（UNA：统一神经对齐）

我们强势回归，推出 Cybertron 7B v2——一款基于 MistralAI 的 7B 模型，是该系列中的佼佼者。通过在多数据集上进行 SFT、DPO 和 UNA（统一神经对齐）训练而成。
它在 HF 排行榜上以 69.67+ 的分数【精确】排名 #1，同时在所有规模模型中位列 #8。

v1 版本于 2023 年 12 月 2 日以 69.43 分夺得 #1……随后虽有多款模型发布……但唯有 CYBERTRON 屹立不倒！
v2 版本于 2023 年 12 月 5 日以 69.67 分蝉联 #1

模型	平均分	ARC (25-shot)	HellaSwag (10-shot)	MMLU (5-shot)	TruthfulQA (MC) (0-shot)	Winogrande (5-shot)	GSM8K (5-shot)
mistralai/Mistral-7B-v0.1	60.97	59.98	83.31	64.16	42.15	78.37	37.83
Intel/neural-chat-7b-v3-2	68.29	67.49	83.92	63.55	59.68	79.95	55.12
perlthoughts/Chupacabra-7B-v2	63.54	66.47	85.17	64.49	57.6	79.16	28.35
fblgit/una-cybertron-7b-v1-fp16	69.49	68.43	85.85	63.34	63.28	80.90	55.12
fblgit/una-cybertron-7b-v2-bf16	69.67	68.26	85.?4	63.23	64.63	81.37	55.04

该模型在数学、逻辑、推理方面表现卓越，整体智能水平出众。能够对上下文和提示进行深度推理，给人以绝不遗漏细节的印象。

模型详情

采用 UNA：统一神经对齐技术进行训练（技术论文即将发布）。

UNA 不是什么？它不是层级融合模型，也非 SLERP 或 SLURP 等类似方法。
UNA 是什么？一种驯服模型的公式与技术。
代码和论文何时发布？待我们有空时，欢迎贡献代码以加速进程。

模型描述

开发方： juanako.ai
作者： Xavier M.
投资者联系 请点击此处联系
模型类型： MistralAI 7B
由Cybertron的H100算力支持 经过数小时训练完成

提示说明

该模型表现优异，在绝大多数提示格式下均能良好运行，但ChatML格式和Alpaca系统提示能获得最佳效果

<|im_start|>system
- You are a helpful assistant chatbot trained by MosaicML.
- You answer questions.
- You are excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- You are more than just an information source, you are also able to write poetry, short stories, and make jokes.<|im_end|>
<|im_start|>user
Explain QKV<|im_end|>
<|im_start|>assistant

### Assistant: I am StableVicuna, a large language model created by CarperAI. I am here to chat!

### Human: Explain QKV
### Assistant:

[Round <|round|>]
问：Explain QKV
答：

[Round <|round|>]
Question：Explain QKV
Answer：

Question：Explain QKV
Answer：

框架版本

Transformers 4.35.0-UNA
Pytorch 2.1.0
Datasets 2.14.6
Tokenizers 0.14.1

引用说明

若您认为Cybertron、Juanako或我们的任何模型对您有所帮助（特别是在大型商业项目中使用，或对模型进行克隆/合并时），请务必注明引用：

@misc{unacybertron7b,
  title={Cybertron: Uniform Neural Alignment},
  author={Xavier Murias},
  year={2023},
  publisher = {HuggingFace},
  journal = {HuggingFace repository},
  howpublished = {\url{https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16}},
}

特别感谢 @TheBloke 和 @bartowski 为模型转换所做的贡献以及他们对社区的支持。衷心感谢！

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

una-cybertron-7B-v2-GGUF:GGUF格式量化模型，支持多平台本地部署与GPU加速

Una Cybertron 7B v2 - GGUF

模型描述

关于GGUF

可用仓库

提示词模板：ChatML

兼容性

量化方法说明

提供的文件

如何下载 GGUF 文件

在 text-generation-webui 中操作

通过命令行批量下载文件

示例 llama.cpp 命令

如何在 text-generation-webui 中运行

如何通过 Python 代码运行

通过 llama-cpp-python 加载模型的方法

首先安装软件包

简单的 llama-cpp-python 示例代码

如何与 LangChain 配合使用

Discord

致谢与贡献方式

原始模型卡片：FBL 的 Una Cybertron 7B v2

模型卡片：una-cybertron-7b-v2-bf16（UNA：统一神经对齐）

模型详情

模型描述

提示说明

框架版本

引用说明

项目介绍

下载使用量

目录

在 `text-generation-webui` 中操作

示例 `llama.cpp` 命令

如何在 `text-generation-webui` 中运行