Qwen3-4B-Instruct-2507优化版,支持256K长上下文,提升指令遵循、逻辑推理等能力,多语言覆盖广,主观任务响应更优,适用于高效部署与应用。【此简介由AI生成】
library_name: transformers license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507/blob/main/LICENSE base_model:
- Qwen/Qwen3-4B-Instruct-2507 tags:
- qwen
- qwen3
- unsloth
查看我们的合集获取Qwen3所有版本,包括GGUF、4位和16位格式。
学习如何正确运行Qwen3-2507 - 阅读我们的指南。
Unsloth Dynamic 2.0实现了卓越的精度,并优于其他主流量化方案。
✨ 阅读我们的Qwen3-2507指南请点击此处!
- 使用我们的Google Colab笔记本免费微调Qwen3 (14B)!
- 阅读我们关于Qwen3支持的博客:unsloth.ai/blog/qwen3
- 在我们的文档中查看其余笔记本。
- 运行并将微调后的模型导出至Ollama、llama.cpp或HF。
| Unsloth 支持 | 免费笔记本 | 性能 | 内存使用 |
|---|---|---|---|
| Qwen3 (14B) | ▶️ 在Colab上启动 | 快3倍 | 减少70% |
| GRPO with Qwen3 (8B) | ▶️ 在Colab上启动 | 快3倍 | 减少80% |
| Llama-3.2 (3B) | ▶️ 在Colab上启动 | 快2.4倍 | 减少58% |
| Llama-3.2 (11B vision) | ▶️ 在Colab上启动 | 快2倍 | 减少60% |
| Qwen2.5 (7B) | ▶️ 在Colab上启动 | 快2倍 | 减少60% |
Qwen3-4B-Instruct-2507
核心亮点
我们推出Qwen3-4B非思考模式的升级版本——Qwen3-4B-Instruct-2507,具备以下显著提升:
- 综合能力全面增强:在指令遵循、逻辑推理、文本理解、数学科学、编程及工具使用等方面实现重大突破
- 多语言长尾知识覆盖大幅扩展:显著提升跨语言场景下的知识覆盖广度
- 主观开放任务更贴合用户偏好:在开放性问题中生成更具帮助性的响应,文本生成质量显著提升
- 长文本理解能力升级:原生支持256K上下文理解

模型概览
Qwen3-4B-Instruct-2507 核心特性:
- 模型类型:因果语言模型
- 训练阶段:预训练与后训练
- 参数量:40亿
- 非嵌入参数量:36亿
- 层数:36
- 注意力头数(GQA):查询头32个,键值头8个
- 上下文长度:原生支持262,144字符
注意:本模型仅支持非思考模式,输出不会生成<think></think>区块,同时无需再指定enable_thinking=False参数
如需了解基准测试、硬件需求及推理性能等详细信息,请参阅我们的博客、GitHub及技术文档。
性能表现
| GPT-4.1-nano-2025-04-14 | Qwen3-30B-A3B 非思考模式 | Qwen3-4B 非思考模式 | Qwen3-4B-Instruct-2507 | |
|---|---|---|---|---|
| 知识能力 | ||||
| MMLU-Pro | 62.8 | 69.1 | 58.0 | 69.6 |
| MMLU-Redux | 80.2 | 84.1 | 77.3 | 84.2 |
| GPQA | 50.3 | 54.8 | 41.7 | 62.0 |
| SuperGPQA | 32.2 | 42.2 | 32.0 | 42.8 |
| 推理能力 | ||||
| AIME25 | 22.7 | 21.6 | 19.1 | 47.4 |
| HMMT25 | 9.7 | 12.0 | 12.1 | 31.0 |
| ZebraLogic | 14.8 | 33.2 | 35.2 | 80.2 |
| LiveBench 20241125 | 41.5 | 59.4 | 48.4 | 63.0 |
| 编程能力 | ||||
| LiveCodeBench v6 (25.02-25.05) | 31.5 | 29.0 | 26.4 | 35.1 |
| MultiPL-E | 76.3 | 74.6 | 66.6 | 76.8 |
| Aider-Polyglot | 9.8 | 24.4 | 13.8 | 12.9 |
| 对齐能力 | ||||
| IFEval | 74.5 | 83.7 | 81.2 | 83.4 |
| Arena-Hard v2* | 15.9 | 24.8 | 9.5 | 43.4 |
| Creative Writing v3 | 72.7 | 68.1 | 53.6 | 83.5 |
| WritingBench | 66.9 | 72.2 | 68.5 | 83.4 |
| 智能体能力 | ||||
| BFCL-v3 | 53.0 | 58.6 | 57.6 | 61.9 |
| TAU1-Retail | 23.5 | 38.3 | 24.3 | 48.7 |
| TAU1-Airline | 14.0 | 18.0 | 16.0 | 32.0 |
| TAU2-Retail | - | 31.6 | 28.1 | 40.4 |
| TAU2-Airline | - | 18.0 | 12.0 | 24.0 |
| TAU2-Telecom | - | 18.4 | 17.5 | 13.2 |
| 多语言能力 | ||||
| MultiIF | 60.7 | 70.8 | 61.3 | 69.0 |
| MMLU-ProX | 56.2 | 65.1 | 49.6 | 61.6 |
| INCLUDE | 58.6 | 67.8 | 53.8 | 60.1 |
| PolyMATH | 15.6 | 23.3 | 16.6 | 31.1 |
*:为保障可复现性,本数据采用GPT-4.1评估的胜率结果
快速开始
Qwen3的代码已集成至最新版Hugging Face transformers库,建议您使用最新版本的transformers。
若使用transformers<4.51.0版本,您将遇到以下错误:
KeyError: 'qwen3'
以下代码片段展示了如何使用该模型根据给定输入生成内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-4B-Instruct-2507"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)
对于部署,您可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.5 来创建兼容 OpenAI 的 API 端点:
- SGLang:
python -m sglang.launch_server --model-path Qwen/Qwen3-4B-Instruct-2507 --context-length 262144 - vLLM:
vllm serve Qwen/Qwen3-4B-Instruct-2507 --max-model-len 262144
注意:如果遇到内存不足(OOM)问题,请考虑将上下文长度缩短至更小值,例如 32,768。
对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3。
智能体应用
Qwen3 在工具调用能力方面表现卓越。我们推荐使用 Qwen-Agent 来充分发挥 Qwen3 的智能体能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,极大降低了编码复杂度。
要定义可用工具,您可以使用 MCP 配置文件、使用 Qwen-Agent 的集成工具,或自行集成其他工具。
from qwen_agent.agents import Assistant
# Define LLM
llm_cfg = {
'model': 'Qwen3-4B-Instruct-2507',
# Use a custom endpoint compatible with OpenAI API:
'model_server': 'http://localhost:8000/v1', # api_base
'api_key': 'EMPTY',
}
# Define Tools
tools = [
{'mcpServers': { # You can specify the MCP configuration file
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
}
}
},
'code_interpreter', # Built-in tools
]
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)
最佳实践
为获得最佳性能,我们推荐以下设置:
-
采样参数:
- 建议使用
Temperature=0.7、TopP=0.8、TopK=20及MinP=0 - 对于支持框架,可将
presence_penalty参数设置在0到2之间以减少无限重复。但需注意,较高数值可能导致偶发性的语言混杂现象,并轻微影响模型性能
- 建议使用
-
适当输出长度:推荐对多数查询使用16,384个token的输出长度,该长度对指令模型完全适用
-
标准化输出格式:建议在基准测试时使用提示词规范模型输出
- 数学问题:在提示词中包含"请逐步推理,并将最终答案置于\boxed{}中"
- 选择题:在提示词中添加以下JSON结构以统一响应格式:"请在
answer字段中仅显示选项字母,例如:"answer": "C""
引用声明
如果您认为我们的工作对您有帮助,欢迎引用我们的成果。
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}