Qwen3系列最新大语言模型,具备强大推理、指令跟随与多语言能力,支持100+语言,原生上下文长度32K,支持YaRN扩展至131K,适合复杂任务与高效对话。【此简介由AI生成】
license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3-14B-GGUF/blob/main/LICENSE pipeline_tag: text-generation base_model: Qwen/Qwen3-14B
Qwen3-14B-GGUF
Qwen3 核心亮点
Qwen3 作为通义千问系列最新一代大规模语言模型,提供了完整的稠密模型与混合专家(MoE)模型组合。基于海量训练数据构建的 Qwen3,在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展,具备以下核心特性:
- 独创性支持思维模式(适用于复杂逻辑推理、数学与编程)与非思维模式(适用于高效通用对话)在单一模型内无缝切换,确保各类场景下的最优性能表现
- 推理能力显著增强,在数学计算、代码生成与常识逻辑推理任务中,全面超越前代 QwQ(思维模式)与 Qwen2.5 指令模型(非思维模式)
- 卓越的人类偏好对齐,在创意写作、角色扮演、多轮对话及指令遵循方面表现突出,提供更自然、引人入胜的沉浸式对话体验
- 专业级智能体能力,支持思维与非思维模式下与外部工具的精准集成,在复杂智能体任务中达到开源模型领先水平
- 支持 100+ 语言与方言,具备强大的多语言指令遵循与翻译能力
模型概览
Qwen3-14B 具备以下特性:
- 模型类型:因果语言模型
- 训练阶段:预训练与后训练
- 参数量:148 亿
- 非嵌入参数量:132 亿
- 层数:40
- 注意力头数(GQA):查询头 40 个,键值头 8 个
- 上下文长度:原生支持 32,768 token,通过 YaRN 扩展至 131,072 token
- 量化支持:q4_K_M、q5_0、q5_K_M、q6_K、q8_0
如需了解基准测试评估、硬件需求及推理性能等详细信息,请参阅我们的博客、GitHub 仓库及技术文档。
快速开始
llama.cpp
查看我们的 llama.cpp 文档 获取更详细的使用指南。
建议您克隆 llama.cpp 项目并按照官方指南进行安装。我们遵循 llama.cpp 的最新版本。
以下演示中,我们默认您在 llama.cpp 代码库目录下执行命令。
./llama-cli -hf Qwen/Qwen3-14B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift
ollama
更多使用指南请查阅我们的 ollama 文档。
您可以通过一条命令运行 Qwen3:
ollama run hf.co/Qwen/Qwen3-14B-GGUF:Q8_0
在思考模式与非思考模式间切换
您可以在用户提示或系统消息中添加 /think 和 /no_think 指令,实现逐轮切换模型的思考模式。在多轮对话中,模型将遵循最近一次收到的指令。
以下是一个多轮对话示例:
> Who are you /no_think
<think>
</think>
I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]
> How many 'r's are in 'strawberries'? /think
<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>
The word strawberries contains 3 instances of the letter r. [...]
处理长文本
Qwen3 原生支持最高 32,768 个 token 的上下文长度。当对话总长度(包含输入和输出)显著超过此限制时,建议使用 RoPE 缩放技术来有效处理长文本。我们已通过 YaRN 方法验证了模型在 131,072 个 token 上下文长度下的性能表现。
在 llama.cpp 中启用 YARN 的方法:
./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
[!注意] 所有主流的开源框架均采用静态YaRN实现,这意味着缩放因子不随输入长度变化,可能影响短文本场景下的性能表现。 建议仅在需要处理长上下文时配置
rope_scaling参数, 同时可根据实际需求调整factor值。例如若典型上下文长度为65,536个token,建议将factor设置为2.0。
[!提示] 阿里云Model Studio提供的服务端点默认支持动态YaRN,无需额外配置。
最佳实践
为获得最优性能,我们推荐以下配置方案:
-
采样参数设置:
- 思维模式(
enable_thinking=True)下:建议采用Temperature=0.6、TopP=0.95、TopK=20、MinP=0及PresencePenalty=1.5。严禁使用贪心解码,否则可能导致性能下降与无限循环问题。 - 非思维模式(
enable_thinking=False)下:建议采用Temperature=0.7、TopP=0.8、TopK=20、MinP=0及PresencePenalty=1.5。 - 量化模型建议设置
presence_penalty=1.5以抑制重复输出。该参数可在0-2范围内调整,过高的数值可能偶发导致语种混杂现象并轻微影响模型性能。
- 思维模式(
-
充足输出长度:常规查询建议设置32,768 token的输出长度。针对数学竞赛、编程挑战等高复杂度问题的基准测试,建议将最大输出长度设为38,912 token,为模型提供充分生成空间以产出详尽响应,从而提升整体表现。
-
标准化输出格式:基准测试时建议通过提示词规范输出格式:
- 数学问题:在提示词中加入"请逐步推理,并将最终答案置于\boxed{}中"。
- 选择题:在提示词中添加JSON结构规范响应格式:"请在
answer字段中仅填写选项字母,例如:"answer": "C""。
-
历史记录排除思维内容:在多轮对话中,历史模型输出应仅包含最终回答部分,无需包含思维过程。官方提供的Jinja2对话模板已实现该机制。对于未直接使用该模板的框架,需由开发者自行确保遵循此最佳实践。
引用说明
如果您认为我们的工作对您有所帮助,欢迎随时引用。
@misc{qwen3,
title = {Qwen3},
url = {https://qwenlm.github.io/blog/qwen3/},
author = {Qwen Team},
month = {April},
year = {2025}
}