提供01-ai Yi 6B 200K模型的GGUF格式量化文件,多种量化方法可选,适配llama.cpp、text-generation-webui等客户端,支持CPU+GPU推理,便于本地部署使用。【此简介由AI生成】
base_model: 01-ai/Yi-6B-200K inference: false license: other license_link: LICENSE license_name: yi-license model_creator: 01-ai model_name: Yi 6B 200K model_type: yi prompt_template: '{prompt}
' quantized_by: TheBloke
TheBloke的大型语言模型工作获得了安德森·霍洛维茨(a16z)的慷慨资助
Yi 6B 200K - GGUF
- 模型创作者:01-ai
- 原始模型:Yi 6B 200K
模型说明
本仓库包含01-ai的Yi 6B 200K的GGUF格式模型文件。
这些量化文件使用了由Massed Compute慷慨提供的硬件资源进行量化处理。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它取代了GGML,后者已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完全列表:
- llama.cpp。GGUF的源项目。提供命令行界面和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有许多功能和强大的扩展。支持GPU加速。
- KoboldCpp,功能全面的Web UI,支持跨平台和GPU架构的加速。特别适合故事创作。
- LM Studio,适用于Windows和macOS(Silicon芯片)的易用且功能强大的本地GUI,支持GPU加速。
- LoLLMS Web UI,一个出色的Web UI,具有许多有趣且独特的功能,包括完整的模型库以便轻松选择模型。
- Faraday.dev,一个美观易用的基于角色的聊天GUI,适用于Windows和macOS(Silicon和Intel芯片),支持GPU加速。
- ctransformers,一个支持GPU加速的Python库,具备LangChain支持和OpenAI兼容的AI服务器功能。
- llama-cpp-python,一个支持GPU加速的Python库,提供LangChain支持和OpenAI兼容的API服务器。
- candle,一个专注于性能(包括GPU支持)和易用性的Rust机器学习框架。
可用模型仓库
- 支持 GPU 推理的 AWQ 模型
- 支持 GPU 推理的 GPTQ 模型,提供多种量化参数选项
- 支持 CPU+GPU 推理的 2/3/4/5/6/8 位 GGUF 量化模型
- 01-ai 官方未量化 fp16 原始模型(pytorch 格式),适用于 GPU 推理及后续转换
提示词模板:无
{prompt}
兼容性
这些量化后的 GGUFv2 文件与自 8 月 27 日 commit d0cee0d 起的 llama.cpp 兼容。
它们同样兼容众多第三方 UI 和库——请参阅本 README 顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,超块包含16个块,每块16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,超块包含16个块,每块16个权重。比例用6位量化。最终使用每权重3.4375位
- GGML_TYPE_Q4_K - "type-1" 4位量化,超块包含8个块,每块32个权重。比例和最小值用6位量化。最终使用每权重4.5位
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超块结构,实现每权重5.5位
- GGML_TYPE_Q6_K - "type-0" 6位量化。超块包含16个块,每块16个权重。比例用8位量化。最终使用每权重6.5625位
请参阅下文提供的文件表格,了解各文件所采用的方法及具体细节。
提供文件
| 名称 | 量化方法 | 位数 | 大小 | 最大内存需求 | 使用场景 |
|---|---|---|---|---|---|
| yi-6b-200k.Q2_K.gguf | Q2_K | 2 | 2.62 GB | 5.12 GB | 最小体积,显著质量损失 - 不推荐用于多数场景 |
| yi-6b-200k.Q3_K_S.gguf | Q3_K_S | 3 | 2.71 GB | 5.21 GB | 极小体积,高质量损失 |
| yi-6b-200k.Q3_K_M.gguf | Q3_K_M | 3 | 2.99 GB | 5.49 GB | 极小体积,高质量损失 |
| yi-6b-200k.Q3_K_L.gguf | Q3_K_L | 3 | 3.24 GB | 5.74 GB | 小体积,显著质量损失 |
| yi-6b-200k.Q4_0.gguf | Q4_0 | 4 | 3.48 GB | 5.98 GB | 传统方法;小体积,极高质量损失 - 建议优先选用Q3_K_M |
| yi-6b-200k.Q4_K_S.gguf | Q4_K_S | 4 | 3.50 GB | 6.00 GB | 小体积,较高质量损失 |
| yi-6b-200k.Q4_K_M.gguf | Q4_K_M | 4 | 3.67 GB | 6.17 GB | 中等体积,平衡质量 - 推荐使用 |
| yi-6b-200k.Q5_0.gguf | Q5_0 | 5 | 4.20 GB | 6.70 GB | 传统方法;中等体积,平衡质量 - 建议优先选用Q4_K_M |
| yi-6b-200k.Q5_K_S.gguf | Q5_K_S | 5 | 4.20 GB | 6.70 GB | 大体积,低质量损失 - 推荐使用 |
| yi-6b-200k.Q5_K_M.gguf | Q5_K_M | 5 | 4.30 GB | 6.80 GB | 大体积,极低质量损失 - 推荐使用 |
| yi-6b-200k.Q6_K.gguf | Q6_K | 6 | 4.97 GB | 7.47 GB | 超大体积,极轻微质量损失 |
| yi-6b-200k.Q8_0.gguf | Q8_0 | 8 | 6.44 GB | 8.94 GB | 超大体积,极轻微质量损失 - 不推荐使用 |
注意:上述内存数据基于未启用GPU卸载的情况。若将层级卸载至GPU,将降低内存使用量并转而使用VRAM。
如何下载 GGUF 文件
手动下载用户请注意: 通常您不需要克隆整个代码库!我们提供了多种量化格式,大多数用户只需选择并下载单个文件即可。
以下客户端/库会自动为您下载模型,并提供可选的模型列表:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui 中操作
在 Download Model 选项下,您可以输入模型仓库名称:TheBloke/Yi-6B-200K-GGUF,并在下方指定要下载的文件名,例如:yi-6b-200k.Q4_K_M.gguf。
然后点击 Download 即可。
通过命令行批量下载文件
建议使用 huggingface-hub Python 库进行下载:
pip3 install huggingface-hub
然后,您可以通过如下命令高速下载任意单独的模型文件至当前目录:
huggingface-cli download TheBloke/Yi-6B-200K-GGUF yi-6b-200k.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
您还可以使用模式一次性下载多个文件:
huggingface-cli download TheBloke/Yi-6B-200K-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用 huggingface-cli 下载的更多文档,请参阅:HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。
若要在高速网络连接(1Gbit/s 或更高)下加速下载,请安装 hf_transfer:
pip3 install hf_transfer
并设置环境变量 HF_HUB_ENABLE_HF_TRANSFER 为 1:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Yi-6B-200K-GGUF yi-6b-200k.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows 命令行用户:在下载命令前可通过运行 set HF_HUB_ENABLE_HF_TRANSFER=1 设置环境变量。
示例 llama.cpp 命令
请确保您使用的 llama.cpp 为 d0cee0d 或更高版本提交。
./main -ngl 32 -m yi-6b-200k.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
将 -ngl 32 中的数值更改为需要卸载到 GPU 的层数。若未启用 GPU 加速,请直接删除此参数。
将 -c 2048 调整为所需的序列长度。对于支持长序列的模型(例如 8K、16K、32K),所需的 RoPE 缩放参数会自动从 GGUF 文件中读取并由 llama.cpp 自动设置。
若需要进行对话式交互,请将 -p <PROMPT> 参数替换为 -i -ins。
关于其他参数及使用方法,请参阅 llama.cpp 文档
如何在 text-generation-webui 中运行
更多说明请参阅 text-generation-webui 文档:text-generation-webui/docs/04 ‐ Model Tab.md
如何通过 Python 代码运行
您可以通过 llama-cpp-python 或 ctransformers 库在 Python 中使用 GGUF 模型。
如何使用 ctransformers 在 Python 代码中加载此模型
首先安装依赖包
根据您的系统选择以下命令之一执行:
# Base ctransformers with no GPU acceleration
pip install ctransformers
# Or with CUDA GPU acceleration
pip install ctransformers[cuda]
# Or with AMD ROCm GPU acceleration (Linux only)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# Or with Metal GPU acceleration for macOS systems only
CT_METAL=1 pip install ctransformers --no-binary ctransformers
简单的 ctransformers 示例代码
from ctransformers import AutoModelForCausalLM
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Yi-6B-200K-GGUF", model_file="yi-6b-200k.Q4_K_M.gguf", model_type="yi", gpu_layers=50)
print(llm("AI is going to"))
如何使用 LangChain
以下是关于如何在 LangChain 中使用 llama-cpp-python 和 ctransformers 的指南:
Discord
如需进一步支持以及关于这些模型和人工智能的讨论,请加入我们的:
感谢与贡献方式
感谢 chirper.ai 团队!
感谢来自 gpus.llm-utils.org 的 Clay!
很多人询问是否可以贡献。我很乐意提供模型并帮助他人,并希望能够花更多时间在这方面,以及扩展到像微调/训练这样的新项目。
如果您有能力并愿意贡献,这将是最感激的,并将帮助我继续提供更多模型,并开始新的 AI 项目。
捐赠者将在任何和所有 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon 特别提及:Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
感谢我所有慷慨的赞助者和捐赠者!
并再次感谢 a16z 的慷慨资助。
原始模型卡片:01-ai 的 Yi 6B 200K
简介
Yi 系列模型是由 01.AI 开发者从头训练的大型语言模型。首次公开发布包含两个双语(英文/中文)基础模型,参数规模分别为 6B(Yi-6B)和 34B(Yi-34B)。两者均以 4K 序列长度训练,并可在推理时扩展至 32K。Yi-6B-200K 和 Yi-34B-200K 是具备 200K 上下文长度的基础模型。
动态
- 🎯 2023/11/06:发布具备 200K 上下文长度的基础模型
Yi-6B-200K和Yi-34B-200K。 - 🎯 2023/11/02:发布基础模型
Yi-6B和Yi-34B。
模型性能
| 模型 | MMLU | CMMLU | C-Eval | 高考 | BBH | 常识推理 | 阅读理解 | 数学与代码 |
|---|---|---|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 0-shot | 3-shot@1 | - | - | - | |
| LLaMA2-34B | 62.6 | - | - | - | 44.1 | 69.9 | 68.0 | 26.0 |
| LLaMA2-70B | 68.9 | 53.3 | - | 49.8 | 51.2 | 71.9 | 69.4 | 36.8 |
| Baichuan2-13B | 59.2 | 62.0 | 58.1 | 54.3 | 48.8 | 64.3 | 62.4 | 23.0 |
| Qwen-14B | 66.3 | 71.0 | 72.1 | 62.5 | 53.4 | 73.3 | 72.5 | 39.8 |
| Skywork-13B | 62.1 | 61.8 | 60.6 | 68.1 | 41.7 | 72.4 | 61.4 | 24.9 |
| InternLM-20B | 62.1 | 59.0 | 58.8 | 45.5 | 52.5 | 78.3 | - | 30.4 |
| Aquila-34B | 67.8 | 71.4 | 63.1 | - | - | - | - | - |
| Falcon-180B | 70.4 | 58.0 | 57.8 | 59.0 | 54.0 | 77.3 | 68.8 | 34.0 |
| Yi-6B | 63.2 | 75.5 | 72.0 | 72.2 | 42.8 | 72.3 | 68.7 | 19.8 |
| Yi-6B-200K | 64.0 | 75.3 | 73.5 | 73.9 | 42.0 | 72.0 | 69.1 | 19.0 |
| Yi-34B | 76.3 | 83.7 | 81.4 | 82.8 | 54.3 | 80.1 | 76.4 | 37.1 |
| Yi-34B-200K | 76.1 | 83.6 | 81.9 | 83.4 | 52.7 | 79.7 | 76.6 | 36.3 |
在评估开源模型时,我们注意到通过我们的流程生成的结果与公开来源(如 OpenCompass)报告的结果存在差异。经过深入调查,我们发现不同模型可能采用不同的提示词、后处理策略和采样技术,这可能导致结果出现显著变化。我们的提示词和后处理策略与原始基准保持一致,并在评估过程中采用贪婪解码,不对生成内容进行任何后处理。对于原始作者未报告的分数(包括使用不同设置报告的分数),我们尝试通过我们的流程获取结果。
为全面评估模型能力,我们采用 Llama2 中概述的方法。具体而言,我们纳入 PIQA、SIQA、HellaSwag、WinoGrande、ARC、OBQA 和 CSQA 以评估常识推理。SquAD、QuAC 和 BoolQ 被纳入以评估阅读理解。CSQA 专门采用 7-shot 设置进行测试,而所有其他测试均采用 0-shot 配置。此外,我们在“数学与代码”类别下引入 GSM8K(8-shot@1)、MATH(4-shot@1)、HumanEval(0-shot@1)和 MBPP(3-shot@1)。由于技术限制,我们未在 QuAC 和 OBQA 上测试 Falcon-180;其分数通过对剩余任务得分取平均得出。由于这两项任务的得分通常低于平均水平,我们认为 Falcon-180B 的性能未被低估。
使用说明
请访问我们的 GitHub 代码库 获取使用本模型的通用指南。
免责声明
尽管我们在训练过程中采用了数据合规性检查算法,力求确保训练模型的最大合规性,但由于数据的复杂性及语言模型应用场景的多样性,我们无法保证模型在所有场景下均能生成正确合理的输出。请注意,模型仍存在产生问题输出的风险。对于因误用、误导、非法使用及相关错误信息导致的任何风险与问题,以及由此引发的数据安全隐患,我们将不承担任何责任。
许可协议
Yi 系列模型完全开放学术研究权限,并通过申请审批后允许免费商业使用。所有使用行为必须遵守 模型许可协议 2.0。如需申请官方商业许可,请通过 yi@01.ai 联系我们。