Qwen3-14B-GGUF:支持思维/非思维模式切换的高性能文本生成模型

Qwen3系列最新大语言模型,具备强大推理、指令跟随与多语言能力,支持100+语言,原生上下文长度32K,支持YaRN扩展至131K,适合复杂任务与高效对话。【此简介由AI生成】

分支1Tags0

Qwen3-14B-GGUF

Chat

Qwen3 核心亮点

Qwen3 作为通义千问系列最新一代大规模语言模型,提供了完整的稠密模型与混合专家(MoE)模型组合。基于海量训练数据构建的 Qwen3,在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展,具备以下核心特性:

  • 独创性支持思维模式(适用于复杂逻辑推理、数学与编程)与非思维模式(适用于高效通用对话)在单一模型内无缝切换,确保各类场景下的最优性能表现
  • 推理能力显著增强,在数学计算、代码生成与常识逻辑推理任务中,全面超越前代 QwQ(思维模式)与 Qwen2.5 指令模型(非思维模式)
  • 卓越的人类偏好对齐,在创意写作、角色扮演、多轮对话及指令遵循方面表现突出,提供更自然、引人入胜的沉浸式对话体验
  • 专业级智能体能力,支持思维与非思维模式下与外部工具的精准集成,在复杂智能体任务中达到开源模型领先水平
  • 支持 100+ 语言与方言,具备强大的多语言指令遵循翻译能力

模型概览

Qwen3-14B 具备以下特性:

  • 模型类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 参数量:148 亿
  • 非嵌入参数量:132 亿
  • 层数:40
  • 注意力头数(GQA):查询头 40 个,键值头 8 个
  • 上下文长度:原生支持 32,768 token,通过 YaRN 扩展至 131,072 token
  • 量化支持:q4_K_M、q5_0、q5_K_M、q6_K、q8_0

如需了解基准测试评估、硬件需求及推理性能等详细信息,请参阅我们的博客GitHub 仓库技术文档

快速开始

llama.cpp

查看我们的 llama.cpp 文档 获取更详细的使用指南。

建议您克隆 llama.cpp 项目并按照官方指南进行安装。我们遵循 llama.cpp 的最新版本。 以下演示中,我们默认您在 llama.cpp 代码库目录下执行命令。

./llama-cli -hf Qwen/Qwen3-14B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 40960 -n 32768 --no-context-shift

ollama

更多使用指南请查阅我们的 ollama 文档

您可以通过一条命令运行 Qwen3:

ollama run hf.co/Qwen/Qwen3-14B-GGUF:Q8_0

在思考模式与非思考模式间切换

您可以在用户提示或系统消息中添加 /think/no_think 指令,实现逐轮切换模型的思考模式。在多轮对话中,模型将遵循最近一次收到的指令。

以下是一个多轮对话示例:

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

处理长文本

Qwen3 原生支持最高 32,768 个 token 的上下文长度。当对话总长度(包含输入和输出)显著超过此限制时,建议使用 RoPE 缩放技术来有效处理长文本。我们已通过 YaRN 方法验证了模型在 131,072 个 token 上下文长度下的性能表现。

llama.cpp 中启用 YARN 的方法:

./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

[!注意] 所有主流的开源框架均采用静态YaRN实现,这意味着缩放因子不随输入长度变化,可能影响短文本场景下的性能表现。 建议仅在需要处理长上下文时配置rope_scaling参数, 同时可根据实际需求调整factor值。例如若典型上下文长度为65,536个token,建议将factor设置为2.0。

[!提示] 阿里云Model Studio提供的服务端点默认支持动态YaRN,无需额外配置。

最佳实践

为获得最优性能,我们推荐以下配置方案:

  1. 采样参数设置

    • 思维模式(enable_thinking=True)下:建议采用Temperature=0.6TopP=0.95TopK=20MinP=0PresencePenalty=1.5严禁使用贪心解码,否则可能导致性能下降与无限循环问题。
    • 非思维模式(enable_thinking=False)下:建议采用Temperature=0.7TopP=0.8TopK=20MinP=0PresencePenalty=1.5
    • 量化模型建议设置presence_penalty=1.5以抑制重复输出。该参数可在0-2范围内调整,过高的数值可能偶发导致语种混杂现象并轻微影响模型性能。
  2. 充足输出长度:常规查询建议设置32,768 token的输出长度。针对数学竞赛、编程挑战等高复杂度问题的基准测试,建议将最大输出长度设为38,912 token,为模型提供充分生成空间以产出详尽响应,从而提升整体表现。

  3. 标准化输出格式:基准测试时建议通过提示词规范输出格式:

    • 数学问题:在提示词中加入"请逐步推理,并将最终答案置于\boxed{}中"。
    • 选择题:在提示词中添加JSON结构规范响应格式:"请在answer字段中仅填写选项字母,例如:"answer": "C""。
  4. 历史记录排除思维内容:在多轮对话中,历史模型输出应仅包含最终回答部分,无需包含思维过程。官方提供的Jinja2对话模板已实现该机制。对于未直接使用该模板的框架,需由开发者自行确保遵循此最佳实践。

引用说明

如果您认为我们的工作对您有所帮助,欢迎随时引用。

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}

项目介绍

Qwen3系列最新大语言模型,具备强大推理、指令跟随与多语言能力,支持100+语言,原生上下文长度32K,支持YaRN扩展至131K,适合复杂任务与高效对话。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新