Qwen3-4B-Instruct-2507-GGUF:Qwen3-4B优化版 GGUF格式 增强多语言与长上下文理解

Qwen3-4B-Instruct-2507优化版,支持256K长上下文,提升指令遵循、逻辑推理等能力,多语言覆盖广,主观任务响应更优,适用于高效部署与应用。【此简介由AI生成】

分支2Tags0
a06e946b创建于 2025年8月20日35次提交
文件最后提交记录最后更新时间
Rename imatrix_unsloth.gguf to imatrix_unsloth.gguf_file8 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Upload folder using huggingface_hub9 个月前
Update README.md9 个月前
Rename imatrix_unsloth.gguf to imatrix_unsloth.gguf_file8 个月前
Create params8 个月前
Create template8 个月前

library_name: transformers license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507/blob/main/LICENSE base_model:

  • Qwen/Qwen3-4B-Instruct-2507 tags:
  • qwen
  • qwen3
  • unsloth

查看我们的合集获取Qwen3所有版本,包括GGUF、4位和16位格式。

学习如何正确运行Qwen3-2507 - 阅读我们的指南

Unsloth Dynamic 2.0实现了卓越的精度,并优于其他主流量化方案。

✨ 阅读我们的Qwen3-2507指南请点击此处

  • 使用我们的Google Colab笔记本免费微调Qwen3 (14B)!
  • 阅读我们关于Qwen3支持的博客:unsloth.ai/blog/qwen3
  • 在我们的文档中查看其余笔记本。
  • 运行并将微调后的模型导出至Ollama、llama.cpp或HF。
Unsloth 支持 免费笔记本 性能 内存使用
Qwen3 (14B) ▶️ 在Colab上启动 快3倍 减少70%
GRPO with Qwen3 (8B) ▶️ 在Colab上启动 快3倍 减少80%
Llama-3.2 (3B) ▶️ 在Colab上启动 快2.4倍 减少58%
Llama-3.2 (11B vision) ▶️ 在Colab上启动 快2倍 减少60%
Qwen2.5 (7B) ▶️ 在Colab上启动 快2倍 减少60%

Qwen3-4B-Instruct-2507

Chat

核心亮点

我们推出Qwen3-4B非思考模式的升级版本——Qwen3-4B-Instruct-2507,具备以下显著提升:

  • 综合能力全面增强:在指令遵循、逻辑推理、文本理解、数学科学、编程及工具使用等方面实现重大突破
  • 多语言长尾知识覆盖大幅扩展:显著提升跨语言场景下的知识覆盖广度
  • 主观开放任务更贴合用户偏好:在开放性问题中生成更具帮助性的响应,文本生成质量显著提升
  • 长文本理解能力升级:原生支持256K上下文理解

image/jpeg

模型概览

Qwen3-4B-Instruct-2507 核心特性:

  • 模型类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 参数量:40亿
  • 非嵌入参数量:36亿
  • 层数:36
  • 注意力头数(GQA):查询头32个,键值头8个
  • 上下文长度:原生支持262,144字符

注意:本模型仅支持非思考模式,输出不会生成<think></think>区块,同时无需再指定enable_thinking=False参数

如需了解基准测试、硬件需求及推理性能等详细信息,请参阅我们的博客GitHub技术文档

性能表现

GPT-4.1-nano-2025-04-14 Qwen3-30B-A3B 非思考模式 Qwen3-4B 非思考模式 Qwen3-4B-Instruct-2507
知识能力
MMLU-Pro 62.8 69.1 58.0 69.6
MMLU-Redux 80.2 84.1 77.3 84.2
GPQA 50.3 54.8 41.7 62.0
SuperGPQA 32.2 42.2 32.0 42.8
推理能力
AIME25 22.7 21.6 19.1 47.4
HMMT25 9.7 12.0 12.1 31.0
ZebraLogic 14.8 33.2 35.2 80.2
LiveBench 20241125 41.5 59.4 48.4 63.0
编程能力
LiveCodeBench v6 (25.02-25.05) 31.5 29.0 26.4 35.1
MultiPL-E 76.3 74.6 66.6 76.8
Aider-Polyglot 9.8 24.4 13.8 12.9
对齐能力
IFEval 74.5 83.7 81.2 83.4
Arena-Hard v2* 15.9 24.8 9.5 43.4
Creative Writing v3 72.7 68.1 53.6 83.5
WritingBench 66.9 72.2 68.5 83.4
智能体能力
BFCL-v3 53.0 58.6 57.6 61.9
TAU1-Retail 23.5 38.3 24.3 48.7
TAU1-Airline 14.0 18.0 16.0 32.0
TAU2-Retail - 31.6 28.1 40.4
TAU2-Airline - 18.0 12.0 24.0
TAU2-Telecom - 18.4 17.5 13.2
多语言能力
MultiIF 60.7 70.8 61.3 69.0
MMLU-ProX 56.2 65.1 49.6 61.6
INCLUDE 58.6 67.8 53.8 60.1
PolyMATH 15.6 23.3 16.6 31.1

*:为保障可复现性,本数据采用GPT-4.1评估的胜率结果

快速开始

Qwen3的代码已集成至最新版Hugging Face transformers库,建议您使用最新版本的transformers

若使用transformers<4.51.0版本,您将遇到以下错误:

KeyError: 'qwen3'

以下代码片段展示了如何使用该模型根据给定输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-4B-Instruct-2507"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

对于部署,您可以使用 sglang>=0.4.6.post1vllm>=0.8.5 来创建兼容 OpenAI 的 API 端点:

  • SGLang:
    python -m sglang.launch_server --model-path Qwen/Qwen3-4B-Instruct-2507 --context-length 262144
    
  • vLLM:
    vllm serve Qwen/Qwen3-4B-Instruct-2507 --max-model-len 262144
    

注意:如果遇到内存不足(OOM)问题,请考虑将上下文长度缩短至更小值,例如 32,768

对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3。

智能体应用

Qwen3 在工具调用能力方面表现卓越。我们推荐使用 Qwen-Agent 来充分发挥 Qwen3 的智能体能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,极大降低了编码复杂度。

要定义可用工具,您可以使用 MCP 配置文件、使用 Qwen-Agent 的集成工具,或自行集成其他工具。

from qwen_agent.agents import Assistant

# Define LLM
llm_cfg = {
    'model': 'Qwen3-4B-Instruct-2507',

    # Use a custom endpoint compatible with OpenAI API:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

最佳实践

为获得最佳性能,我们推荐以下设置:

  1. 采样参数

    • 建议使用Temperature=0.7TopP=0.8TopK=20MinP=0
    • 对于支持框架,可将presence_penalty参数设置在0到2之间以减少无限重复。但需注意,较高数值可能导致偶发性的语言混杂现象,并轻微影响模型性能
  2. 适当输出长度:推荐对多数查询使用16,384个token的输出长度,该长度对指令模型完全适用

  3. 标准化输出格式:建议在基准测试时使用提示词规范模型输出

    • 数学问题:在提示词中包含"请逐步推理,并将最终答案置于\boxed{}中"
    • 选择题:在提示词中添加以下JSON结构以统一响应格式:"请在answer字段中仅显示选项字母,例如:"answer": "C""

引用声明

如果您认为我们的工作对您有帮助,欢迎引用我们的成果。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

项目介绍

Qwen3-4B-Instruct-2507优化版,支持256K长上下文,提升指令遵循、逻辑推理等能力,多语言覆盖广,主观任务响应更优,适用于高效部署与应用。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新