Qwen3系列最新大语言模型，具备强大推理、指令跟随与多语言能力，支持100+语言，原生上下文长度32K，支持YaRN扩展至131K，适合复杂任务与高效对话。【此简介由AI生成】

abdca9b1创建于 2025年5月9日9次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload folder using huggingface_hub	1 年前
LICENSE	Upload folder using huggingface_hub	1 年前
Qwen3-14B-Q4_K_M.ggufLFS	Upload to Qwen/Qwen3-14B-GGUF on ModelScope hub	1 年前
Qwen3-14B-Q5_0.ggufLFS	Upload to Qwen/Qwen3-14B-GGUF on ModelScope hub	1 年前
Qwen3-14B-Q5_K_M.ggufLFS	Upload to Qwen/Qwen3-14B-GGUF on ModelScope hub	1 年前
Qwen3-14B-Q6_K.ggufLFS	Upload to Qwen/Qwen3-14B-GGUF on ModelScope hub	1 年前
Qwen3-14B-Q8_0.ggufLFS	Upload to Qwen/Qwen3-14B-GGUF on ModelScope hub	1 年前
README.md	update README	1 年前
configuration.json	System init configuration.json	1 年前
params	update README	1 年前

自动翻译

license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3-14B-GGUF/blob/main/LICENSE pipeline_tag: text-generation base_model: Qwen/Qwen3-14B

Qwen3-14B-GGUF

Qwen3 核心亮点

Qwen3 作为通义千问系列最新一代大规模语言模型，提供了完整的稠密模型与混合专家（MoE）模型组合。基于海量训练数据构建的 Qwen3，在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展，具备以下核心特性：

独创性支持思维模式（适用于复杂逻辑推理、数学与编程）与非思维模式（适用于高效通用对话）在单一模型内无缝切换，确保各类场景下的最优性能表现
推理能力显著增强，在数学计算、代码生成与常识逻辑推理任务中，全面超越前代 QwQ（思维模式）与 Qwen2.5 指令模型（非思维模式）
卓越的人类偏好对齐，在创意写作、角色扮演、多轮对话及指令遵循方面表现突出，提供更自然、引人入胜的沉浸式对话体验
专业级智能体能力，支持思维与非思维模式下与外部工具的精准集成，在复杂智能体任务中达到开源模型领先水平
支持 100+ 语言与方言，具备强大的多语言指令遵循与翻译能力

模型概览

Qwen3-14B 具备以下特性：

模型类型：因果语言模型
训练阶段：预训练与后训练
参数量：148 亿
非嵌入参数量：132 亿
层数：40
注意力头数（GQA）：查询头 40 个，键值头 8 个
上下文长度：原生支持 32,768 token，通过 YaRN 扩展至 131,072 token
量化支持：q4_K_M、q5_0、q5_K_M、q6_K、q8_0

如需了解基准测试评估、硬件需求及推理性能等详细信息，请参阅我们的博客、GitHub 仓库及技术文档。

快速开始

llama.cpp

查看我们的 llama.cpp 文档获取更详细的使用指南。

建议您克隆 llama.cpp 项目并按照官方指南进行安装。我们遵循 llama.cpp 的最新版本。以下演示中，我们默认您在 llama.cpp 代码库目录下执行命令。

./llama-cli -hf Qwen/Qwen3-14B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift

ollama

更多使用指南请查阅我们的 ollama 文档。

您可以通过一条命令运行 Qwen3：

ollama run hf.co/Qwen/Qwen3-14B-GGUF:Q8_0

在思考模式与非思考模式间切换

您可以在用户提示或系统消息中添加 /think 和 /no_think 指令，实现逐轮切换模型的思考模式。在多轮对话中，模型将遵循最近一次收到的指令。

以下是一个多轮对话示例：

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

处理长文本

Qwen3 原生支持最高 32,768 个 token 的上下文长度。当对话总长度（包含输入和输出）显著超过此限制时，建议使用 RoPE 缩放技术来有效处理长文本。我们已通过 YaRN 方法验证了模型在 131,072 个 token 上下文长度下的性能表现。

在 llama.cpp 中启用 YARN 的方法：

./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

[!注意] 所有主流的开源框架均采用静态YaRN实现，这意味着缩放因子不随输入长度变化，可能影响短文本场景下的性能表现。建议仅在需要处理长上下文时配置rope_scaling参数，同时可根据实际需求调整factor值。例如若典型上下文长度为65,536个token，建议将factor设置为2.0。

[!提示] 阿里云Model Studio提供的服务端点默认支持动态YaRN，无需额外配置。

最佳实践

为获得最优性能，我们推荐以下配置方案：

采样参数设置：
- 思维模式（enable_thinking=True）下：建议采用Temperature=0.6、TopP=0.95、TopK=20、MinP=0及PresencePenalty=1.5。严禁使用贪心解码，否则可能导致性能下降与无限循环问题。
- 非思维模式（enable_thinking=False）下：建议采用Temperature=0.7、TopP=0.8、TopK=20、MinP=0及PresencePenalty=1.5。
- 量化模型建议设置presence_penalty=1.5以抑制重复输出。该参数可在0-2范围内调整，过高的数值可能偶发导致语种混杂现象并轻微影响模型性能。
充足输出长度：常规查询建议设置32,768 token的输出长度。针对数学竞赛、编程挑战等高复杂度问题的基准测试，建议将最大输出长度设为38,912 token，为模型提供充分生成空间以产出详尽响应，从而提升整体表现。
标准化输出格式：基准测试时建议通过提示词规范输出格式：
- 数学问题：在提示词中加入"请逐步推理，并将最终答案置于\boxed{}中"。
- 选择题：在提示词中添加JSON结构规范响应格式："请在answer字段中仅填写选项字母，例如："answer": "C""。
历史记录排除思维内容：在多轮对话中，历史模型输出应仅包含最终回答部分，无需包含思维过程。官方提供的Jinja2对话模板已实现该机制。对于未直接使用该模板的框架，需由开发者自行确保遵循此最佳实践。

引用说明

如果您认为我们的工作对您有所帮助，欢迎随时引用。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}