可用于减少内容限制的文本生成场景，该项目是 Qwen3.6-35B-A3B 的去审查版本，采用 Magnitude-Preserving Orthogonal Ablation 方法，在保持模型质量（KL 散度 0.0015）的同时降低拒绝率（10/100）。【此简介由AI生成】

SsystemUpload chat_template.jinja

c0e00383创建于 22 天前12次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload tokenizer	1 个月前
README.md	Update README.md	28 天前
chat_template.jinja	Upload chat_template.jinja	22 天前
config.json	Upload Qwen3_5MoeForConditionalGeneration	1 个月前
generation_config.json	Upload Qwen3_5MoeForConditionalGeneration	1 个月前
model-00001-of-00002.safetensorsLFS	Upload Qwen3_5MoeForConditionalGeneration	1 个月前
model-00002-of-00002.safetensorsLFS	Upload Qwen3_5MoeForConditionalGeneration	1 个月前
model.safetensors.index.json	Upload Qwen3_5MoeForConditionalGeneration	1 个月前
preprocessor_config.json	Upload 2 files	1 个月前
tokenizer.jsonLFS	Upload tokenizer	1 个月前
tokenizer_config.json	Upload tokenizer	1 个月前
video_preprocessor_config.json	Upload 2 files	1 个月前

自动翻译

library_name: transformers license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen3.6-35B-A3B/blob/main/LICENSE pipeline_tag: image-text-to-text tags:

heretic
uncensored
decensored
abliterated base_model:
Qwen/Qwen3.6-35B-A3B

🚨⚠️ 我已达到Hugging Face的免费存储上限 ⚠️🚨

除非能够承担额外的存储费用，否则我无法再上传新模型。
作为独立贡献者，我免费托管了70多个模型，且这项工作没有任何报酬。
没有您的支持，将无法再上传新模型。

🎉 Patreon（月付） | ☕ Ko-fi（一次性）

每一笔捐款都将直接用于支付Hugging Face的存储费用，确保模型对所有人免费开放。

拒绝率降低88%（无审查版为10/100，原版为83/100），同时保持模型质量（KL散度0.0015）。

❤️ 支持我的工作

创建这些模型需要投入大量时间、精力和计算资源。如果您觉得它们有用，欢迎考虑支持我：

image/png

平台	链接	您将获得
🎉 Patreon	月度支持	优先模型请求权
☕ Ko-fi	一次性打赏	我永恒的感谢

您的帮助将激励我进一步改进工作流程，支付存储和计算费用，甚至可能帮助我租用云GPU来对更大的模型进行无审查处理。

这是 Qwen/Qwen3.6-35B-A3B 的去审查版本，使用 Heretic v1.2.0 以及 Magnitude-Preserving Orthogonal Ablation (MPOA) 方法的一种变体制作而成

消融参数

参数	值
direction_index	19.93
attn.out_proj.max_weight	1.49
attn.out_proj.max_weight_position	23.45
attn.out_proj.min_weight	1.08
attn.out_proj.min_weight_distance	16.54
mlp.down_proj.max_weight	1.46
mlp.down_proj.max_weight_position	28.05
mlp.down_proj.min_weight	1.27
mlp.down_proj.min_weight_distance	18.79
attn.o_proj.max_weight	1.47
attn.o_proj.max_weight_position	24.35
attn.o_proj.min_weight	0.07
attn.o_proj.min_weight_distance	22.58

目标组件

attn.o_proj
- attn.out_proj
- mlp.down_proj

性能

指标	本模型	原始模型 (Qwen3.6-35B-A3B)
KL 散度	0.0015	0 (根据定义)
拒绝率	✅ 10/100	❌ 83/100

较低的拒绝率表明内容限制更少，而较低的 KL 散度表明更接近原始模型的基线。较高的拒绝率会导致更多的拒绝、反对、抵制、说教、审查、软化和回避。

MMLU 测试结果：

原始模型：

任务	版本	筛选器	n-shot	指标		值		标准误差
mmlu	2	none		acc	↑	0.8372	±	0.0030
- 人文科学	2	none		acc	↑	0.7815	±	0.0058
- 形式逻辑	1	none	0	acc	↑	0.7381	±	0.0393
- 高中欧洲历史	1	none	0	acc	↑	0.8667	±	0.0265
- 高中美国历史	1	none	0	acc	↑	0.9265	±	0.0183
- 高中世界历史	1	none	0	acc	↑	0.9283	±	0.0168
- 国际法	1	none	0	acc	↑	0.9339	±	0.0227
- 法理学	1	none	0	acc	↑	0.8889	±	0.0304
- 逻辑谬误	1	none	0	acc	↑	0.9141	±	0.0220
- 道德争议	1	none	0	acc	↑	0.8555	±	0.0189
- 道德情景	1	none	0	acc	↑	0.6425	±	0.0160
- 哲学	1	none	0	acc	↑	0.8810	±	0.0184
- 史前史	1	none	0	acc	↑	0.9043	±	0.0164
- 专业法律	1	none	0	acc	↑	0.7047	±	0.0117
- 世界宗教	1	none	0	acc	↑	0.9064	±	0.0223
- 其他	2	none		acc	↑	0.8687	±	0.0057
- 商业伦理	1	none	0	acc	↑	0.8900	±	0.0314
- 临床知识	1	none	0	acc	↑	0.8981	±	0.0186
- 大学医学	1	none	0	acc	↑	0.8671	±	0.0259
- 全球事实	1	none	0	acc	↑	0.5300	±	0.0502
- 人类衰老	1	none	0	acc	↑	0.8475	±	0.0241
- 管理学	1	none	0	acc	↑	0.8835	±	0.0318
- 市场营销	1	none	0	acc	↑	0.9444	±	0.0150
- 医学遗传学	1	none	0	acc	↑	0.9200	±	0.0273
- 综合知识	1	none	0	acc	↑	0.9476	±	0.0080
- 营养学	1	none	0	acc	↑	0.8954	±	0.0175
- 专业会计学	1	none	0	acc	↑	0.7340	±	0.0264
- 专业医学	1	none	0	acc	↑	0.9449	±	0.0139
- 病毒学	1	none	0	acc	↑	0.5783	±	0.0384
- 社会科学	2	none		acc	↑	0.9067	±	0.0052
- 计量经济学	1	none	0	acc	↑	0.7982	±	0.0378
- 高中地理学	1	none	0	acc	↑	0.9343	±	0.0176
- 高中政府与政治	1	none	0	acc	↑	0.9793	±	0.0103
- 高中宏观经济学	1	none	0	acc	↑	0.8949	±	0.0156
- 高中微观经济学	1	none	0	acc	↑	0.9538	±	0.0136
- 高中心理学	1	none	0	acc	↑	0.9578	±	0.0086
- 人类性学	1	none	0	acc	↑	0.8931	±	0.0271
- 专业心理学	1	none	0	acc	↑	0.8824	±	0.0130
- 公共关系	1	none	0	acc	↑	0.7455	±	0.0417
- 安全研究	1	none	0	acc	↑	0.8408	±	0.0234
- 社会学	1	none	0	acc	↑	0.9303	±	0.0180
- 美国外交政策	1	none	0	acc	↑	0.9500	±	0.0219
- 理工科（STEM）	2	none		acc	↑	0.8214	±	0.0066
- 抽象代数	1	none	0	acc	↑	0.7000	±	0.0461
- 解剖学	1	none	0	acc	↑	0.8815	±	0.0279
- 天文学	1	none	0	acc	↑	0.9079	±	0.0235
- 大学生物学	1	none	0	acc	↑	0.9444	±	0.0192
- 大学化学	1	none	0	acc	↑	0.6500	±	0.0479
- 大学计算机科学	1	none	0	acc	↑	0.7400	±	0.0441
- 大学数学	1	none	0	acc	↑	0.6800	±	0.0469
- 大学物理	1	none	0	acc	↑	0.6961	±	0.0458
- 计算机安全	1	none	0	acc	↑	0.8600	±	0.0349
- 概念物理	1	none	0	acc	↑	0.9489	±	0.0144
- 电子工程	1	none	0	acc	↑	0.8483	±	0.0299
- 初等数学	1	none	0	acc	↑	0.8175	±	0.0199
- 高中生物学	1	none	0	acc	↑	0.9581	±	0.0114
- 高中化学	1	none	0	acc	↑	0.8128	±	0.0274
- 高中计算机科学	1	none	0	acc	↑	0.9100	±	0.0288
- 高中数学	1	none	0	acc	↑	0.6037	±	0.0298
- 高中物理	1	none	0	acc	↑	0.8278	±	0.0308
- 高中统计学	1	none	0	acc	↑	0.8194	±	0.0262
- 机器学习	1	none	0	acc	↑	0.8036	±	0.0377

组别	版本	筛选器	指标		值		标准误差
mmlu	2	none	acc	↑	0.8372	±	0.0030
- 人文科学	2	none	acc	↑	0.7815	±	0.0058
- 其他	2	none	acc	↑	0.8687	±	0.0057
- 社会科学	2	none	acc	↑	0.9067	±	0.0052
- 理工科（STEM）	2	none	acc	↑	0.8214	±	0.0066

Heretic 模型：

任务	版本	筛选器	n-shot	指标		值		标准误差
mmlu	2	none		acc	↑	0.8330	±	0.0030
- 人文科学	2	none		acc	↑	0.7692	±	0.0059
- 形式逻辑	1	none	0	acc	↑	0.6905	±	0.0413
- 高中欧洲历史	1	none	0	acc	↑	0.8606	±	0.0270
- 高中美国历史	1	none	0	acc	↑	0.9314	±	0.0177
- 高中世界历史	1	none	0	acc	↑	0.9156	±	0.0181
- 国际法	1	none	0	acc	↑	0.9174	±	0.0251
- 法理学	1	none	0	acc	↑	0.8889	±	0.0304
- 逻辑谬误	1	none	0	acc	↑	0.9264	±	0.0205
- 道德争议	1	none	0	acc	↑	0.8439	±	0.0195
- 道德情景	1	none	0	acc	↑	0.6279	±	0.0162
- 哲学	1	none	0	acc	↑	0.8682	±	0.0192
- 史前史	1	none	0	acc	↑	0.9012	±	0.0166
- 专业法律	1	none	0	acc	↑	0.6858	±	0.0119
- 世界宗教	1	none	0	acc	↑	0.9181	±	0.0210
- 其他	2	none		acc	↑	0.8680	±	0.0057
- 商业伦理	1	none	0	acc	↑	0.8200	±	0.0386
- 临床知识	1	none	0	acc	↑	0.8906	±	0.0192
- 大学医学	1	none	0	acc	↑	0.8844	±	0.0244
- 全球事实	1	none	0	acc	↑	0.5500	±	0.0500
- 人类衰老	1	none	0	acc	↑	0.8296	±	0.0252
- 管理学	1	none	0	acc	↑	0.9029	±	0.0293
- 市场营销	1	none	0	acc	↑	0.9444	±	0.0150
- 医学遗传学	1	none	0	acc	↑	0.9300	±	0.0256
- 综合知识	1	none	0	acc	↑	0.9553	±	0.0074
- 营养学	1	none	0	acc	↑	0.9020	±	0.0170
- 专业会计学	1	none	0	acc	↑	0.7270	±	0.0266
- 专业医学	1	none	0	acc	↑	0.9375	±	0.0147
- 病毒学	1	none	0	acc	↑	0.5723	±	0.0385
- 社会科学	2	none		acc	↑	0.9071	±	0.0051
- 计量经济学	1	none	0	acc	↑	0.8070	±	0.0371
- 高中地理学	1	none	0	acc	↑	0.9444	±	0.0163
- 高中政府与政治	1	none	0	acc	↑	0.9793	±	0.0103
- 高中宏观经济学	1	none	0	acc	↑	0.8923	±	0.0157
- 高中微观经济学	1	none	0	acc	↑	0.9538	±	0.0136
- 高中心理学	1	none	0	acc	↑	0.9560	±	0.0088
- 人类性学	1	none	0	acc	↑	0.9084	±	0.0253
- 专业心理学	1	none	0	acc	↑	0.8807	±	0.0131
- 公共关系	1	none	0	acc	↑	0.7364	±	0.0422
- 安全研究	1	none	0	acc	↑	0.8408	±	0.0234
- 社会学	1	none	0	acc	↑	0.9303	±	0.0180
- 美国外交政策	1	none	0	acc	↑	0.9500	±	0.0219
- 理工科（STEM）	2	none		acc	↑	0.8214	±	0.0066
- 抽象代数	1	none	0	acc	↑	0.6500	±	0.0479
- 解剖学	1	none	0	acc	↑	0.8741	±	0.0287
- 天文学	1	none	0	acc	↑	0.9145	±	0.0228
- 大学生物学	1	none	0	acc	↑	0.9444	±	0.0192
- 大学化学	1	none	0	acc	↑	0.6600	±	0.0476
- 大学计算机科学	1	none	0	acc	↑	0.7400	±	0.0441
- 大学数学	1	none	0	acc	↑	0.6500	±	0.0479
- 大学物理	1	none	0	acc	↑	0.6765	±	0.0466
- 计算机安全	1	none	0	acc	↑	0.8400	±	0.0368
- 概念物理	1	none	0	acc	↑	0.9447	±	0.0149
- 电子工程	1	none	0	acc	↑	0.8483	±	0.0299
- 初等数学	1	none	0	acc	↑	0.8307	±	0.0193
- 高中生物学	1	none	0	acc	↑	0.9645	±	0.0105
- 高中化学	1	none	0	acc	↑	0.8079	±	0.0277
- 高中计算机科学	1	none	0	acc	↑	0.9300	±	0.0256
- 高中数学	1	none	0	acc	↑	0.6222	±	0.0296
- 高中物理	1	none	0	acc	↑	0.8278	±	0.0308
- 高中统计学	1	none	0	acc	↑	0.8148	±	0.0265
- 机器学习	1	none	0	acc	↑	0.8036	±	0.0377

组别	版本	筛选器	指标		值		标准误差
mmlu	2	none	acc	↑	0.8330	±	0.0030
- 人文科学	2	none	acc	↑	0.7692	±	0.0059
- 其他	2	none	acc	↑	0.8680	±	0.0057
- 社会科学	2	none	acc	↑	0.9071	±	0.0051
- 理工科（STEM）	2	none	acc	↑	0.8214	±	0.0066

MMLU - 大规模多任务语言理解，涵盖 57 个学科（数学、历史、法律、医学等）的多项选择题。

GGUF 版本

GGUF 量化版本可在此处获取：llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-GGUF。

Qwen3.6-35B-A3B

Note

本仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。

这些模型文件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等工具兼容。

继 2 月份发布 Qwen3.5 系列之后，我们荣幸地推出 Qwen3.6 的首个开源权重版本。Qwen3.6 基于社区的直接反馈构建，将稳定性和实际应用价值放在首位，为开发者提供更直观、响应更迅速且真正高效的编码体验。

Qwen3.6 亮点

此次发布带来了显著升级，尤其在以下方面：

智能体编码（Agentic Coding）：模型现在能更流畅、精准地处理前端工作流和仓库级代码推理。
思维保留（Thinking Preservation）：我们引入了新选项，可保留历史消息中的推理上下文，简化迭代开发并减少额外开销。

基准测试结果

更多详情，请参阅我们的博客文章 Qwen3.6-35B-A3B。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数数量：总计 350 亿，激活 30 亿
- 隐藏维度：2048
- 词嵌入维度：248320（已填充）
- 层数：40
- 隐藏层结构：10 × (3 × (门控 DeltaNet → MoE) → 1 × (门控注意力 → MoE))
- 门控 DeltaNet：
  - 线性注意力头数：V 为 32，QK 为 16
  - 头维度：128
- 门控注意力：
  - 注意力头数：Q 为 16，KV 为 2
  - 头维度：256
  - 旋转位置嵌入维度：64
- 混合专家（Mixture Of Experts）：
  - 专家数量：256
  - 激活专家数量：8 个路由专家 + 1 个共享专家
  - 专家中间维度：512
- 语言模型输出：248320（已填充）
- MTP：采用多步训练
上下文长度：原生支持 262,144 tokens，可扩展至 1,010,000 tokens。

基准测试结果

语言能力

	Qwen3.5-27B	Gemma4-31B	Qwen3.5-35BA3B	Gemma4-26BA4B	Qwen3.6-35BA3B
编码智能体
SWE-bench 验证集	75.0	52.0	70.0	17.4	73.4
SWE-bench 多语言版	69.3	51.7	60.3	17.3	67.2
SWE-bench 专业版	51.2	35.7	44.6	13.8	49.5
Terminal-Bench 2.0	41.6	42.9	40.5	34.2	51.5
Claw-Eval _平均值	64.3	48.5	65.4	58.8	68.7
Claw-Eval _Pass^3	46.2	25.0	51.0	28.0	50.0
SkillsBench _Avg5	27.2	23.6	4.4	12.3	28.7
QwenClawBench	52.2	41.7	47.7	38.7	52.6
NL2Repo	27.3	15.5	20.5	11.6	29.4
QwenWebBench	1068	1197	978	1178	1397
通用智能体
TAU3-Bench	68.4	67.5	68.9	59.0	67.2
VITA-Bench	41.8	43.0	29.1	36.9	35.6
DeepPlanning	22.6	24.0	22.8	16.2	25.9
Tool Decathlon	31.5	21.2	28.7	12.0	26.9
MCPMark	36.3	18.1	27.0	14.2	37.0
MCP-Atlas	68.4	57.2	62.4	50.0	62.8
WideSearch	66.4	35.2	59.1	38.3	60.1
知识能力
MMLU-Pro	86.1	85.2	85.3	82.6	85.2
MMLU-Redux	93.2	93.7	93.3	92.7	93.3
SuperGPQA	65.6	65.7	63.4	61.4	64.7
C-Eval	90.5	82.6	90.2	82.5	90.0
STEM 与推理能力
GPQA	85.5	84.3	84.2	82.3	86.0
HLE	24.3	19.5	22.4	8.7	21.4
LiveCodeBench v6	80.7	80.0	74.6	77.1	80.4
HMMT Feb 25	92.0	88.7	89.0	91.7	90.7
HMMT Nov 25	89.8	87.5	89.2	87.5	89.1
HMMT Feb 26	84.3	77.2	78.7	79.0	83.6
IMOAnswerBench	79.9	74.5

76.8 74.3 78.9 AIME26 92.6 89.2 91.0 88.3 92.7

* SWE-Bench 系列：内部智能体框架（bash + 文件编辑工具）；温度系数=1.0，top_p=0.95，200K 上下文窗口。我们修正了 SWE-bench Pro 公开数据集中的部分问题任务，并在优化后的基准上评估所有基线模型。
* Terminal-Bench 2.0：采用 Harbor/Terminus-2 测试框架；超时时间 3 小时，配置 32 CPU/48 GB 内存；温度系数=1.0，top_p=0.95，top_k=20，最大 tokens=80K，256K 上下文；5 次运行的平均值。
* SkillsBench：通过 OpenCode 在 78 个任务（独立子集，不含依赖 API 的任务）上进行评估；5 次运行的平均值。
* NL2Repo：其他模型通过 Claude Code 进行评估（温度系数=1.0，top_p=0.95，最大轮次=900）。
* QwenClawBench：内部真实用户分布的 Claw 智能体基准（即将开源）；温度系数=0.6，256K 上下文。
* QwenWebBench：内部前端代码生成基准；支持双语（英文/中文），涵盖 7 个类别（Web 设计、Web 应用、游戏、SVG、数据可视化、动画和 3D）；自动渲染 + 多模态评判（代码/视觉正确性）；采用 BT/Elo 评分系统。
* TAU3-Bench：使用官方用户模型（gpt-5.2，低推理资源）+ 默认 BM25 检索。
* VITA-Bench：子领域分数平均值；由于官方评判模型（claude-3.7-sonnet）已停用，改用 claude-4-sonnet 作为评判模型。
* MCPMark：基于 GitHub MCP v0.30.3；Playwright 响应截断至 32K tokens。
* MCP-Atlas：公开数据集分数；采用 gemini-2.5-pro 作为评判模型。
* AIME 26：使用完整的 AIME 2026（I 卷和 II 卷），其分数可能与 Qwen 3.5 的说明有所不同。

视觉语言

	Qwen3.5-27B	Claude-Sonnet-4.5	Gemma4-31B	Gemma4-26BA4B	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
STEM与谜题
MMMU	82.3	79.6	80.4	78.4	81.4	81.7
MMMU-Pro	75.0	68.4	76.9*	73.8*	75.1	75.3
Mathvista(mini)	87.8	79.8	79.3	79.4	86.2	86.4
ZEROBench_sub	36.2	26.3	26.0	26.3	34.1	34.4
通用视觉问答
RealWorldQA	83.7	70.3	72.3	72.2	84.1	85.3
MMBench_EN-DEV-v1.1	92.6	88.3	90.9	89.0	91.5	92.8
SimpleVQA	56.0	57.6	52.9	52.2	58.3	58.9
HallusionBench	70.0	59.9	67.4	66.1	67.9	69.8
文本识别与文档理解
OmniDocBench1.5	88.9	85.8	80.1	74.4	89.3	89.9
CharXiv(RQ)	79.5	67.2	67.9	69.0	77.5	78.0
CC-OCR	81.0	68.1	75.7	74.5	80.7	81.9
AI2D_TEST	92.9	87.0	89.0	88.3	92.6	92.7
空间智能
RefCOCO(avg)	90.9	--	--	--	89.2	92.0
ODInW13	41.1	--	--	--	42.6	50.8
EmbSpatialBench	84.5	71.8	--	--	83.1	84.3
RefSpatialBench	67.7	--	--	--	63.5	64.3
视频理解
VideoMME_(带字幕)	87.0	81.1	--	--	86.6	86.6
VideoMME_(无字幕)	82.8	75.3	--	--	82.5	82.5
VideoMMMU	82.3	77.6	81.6	76.0	80.4	83.7
MLVU	85.9	72.8	--	--	85.6	86.2
MVBench	74.6	--	--	--	74.8	74.6
LVBench	73.6	--	--	--	71.4	71.4

* 空白单元格（--）表示分数不可用或不适用。

快速入门

为实现便捷集成，我们建议通过 API 使用 Qwen3.6。以下是通过兼容 OpenAI 的 API 使用 Qwen3.6 的指南。

部署 Qwen3.6

Qwen3.6 可通过主流推理框架以 API 形式部署。下文将展示启动 Qwen3.6 模型兼容 OpenAI API 服务的示例命令。

Important

不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架，以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景，强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。

Important

该模型的默认上下文长度为 262,144 个 token。若遇到内存不足（OOM）错误，可考虑减小上下文窗口。但由于 Qwen3.6 利用扩展上下文处理复杂任务，建议保持至少 128K token 的上下文长度，以保留其思考能力。

SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。 Qwen3.6 推荐使用 sglang>=0.5.10，可在全新环境中通过以下命令安装：

uv pip install sglang[all]

有关更多详细信息，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版：可使用以下命令创建最大上下文长度为 262,144 tokens 的 API 端点，并在 8 块 GPU 上使用张量并行。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具调用：要支持工具调用，可使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多 token 预测（MTP）：建议使用以下命令进行 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

有关详细的部署指南，请参见 SGLang Qwen3.5 指南。

vLLM

vLLM 是一个用于大语言模型（LLMs）的高吞吐量且内存高效的推理和服务引擎。 Qwen3.6 推荐使用 vllm>=0.19.0，可在全新环境中通过以下命令安装：

uv pip install vllm --torch-backend=auto

有关更多详情，请参见其文档。

以下操作将在 http://localhost:8000/v1 创建 API 端点：

标准版本：可使用以下命令创建 API 端点，该端点采用 8 块 GPU 进行张量并行，最大上下文长度为 262,144 tokens。
```
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 
```

工具调用：若要支持工具使用，可使用以下命令。

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测（MTP）：多 Token 预测（MTP）推荐使用以下命令：

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式：以下命令会跳过视觉编码器和多模态分析，以释放内存用于额外的 KV 缓存：

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

有关详细的部署指南，请参见 vLLM Qwen3.5 方案。

KTransformers

KTransformers 是一个灵活的框架，可通过 CPU-GPU 异构计算体验前沿的 LLM 推理优化。若要使用 KTransformers 运行 Qwen3.6，请参见 KTransformers 部署指南。

Hugging Face Transformers

Hugging Face Transformers 包含一个轻量级服务器，可用于快速测试和中等负载部署。运行 Qwen3.6 需要最新版本的 transformers：

pip install "transformers[serving]"

有关更多详细信息，请参见其文档。同时，请确保已安装torchvision和pillow。

然后，运行transformers serve以启动服务器，其API端点位于http://localhost:8000/v1；如果有可用的加速器，服务器会将模型部署到加速器上：

transformers serve Qwen/Qwen3.6-35B-A3B --port 8000 --continuous-batching

通过聊天补全 API 使用 Qwen3.6

聊天补全 API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里，我们展示使用 OpenAI Python SDK 的示例。

开始前，请确保已安装该 SDK，并配置好 API 密钥和 API 基础 URL，例如：

pip install -U openai

# Set the following accordingly
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

Tip

我们建议使用以下一组采样参数进行生成

一般任务的思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
精确编码任务（如 Web 开发）的思考模式：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
一般任务的指令（或非思考）模式：temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
推理任务的指令（或非思考）模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意，采样参数的支持情况因推理框架而异。

Important

Qwen3.6 模型默认以思考模式运行，在生成最终响应前会先产生以 </think>\n...</think>\n\n 标记的思考内容。若要禁用思考内容并获取直接响应，请参考此处的示例。

Text-Only Input

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

图像输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
                }
            },
            {
                "type": "text",
                "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

视频输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
            }
        ]
    }
]

# When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`,
# video frame sampling can be configured via `extra_body` (e.g., by setting `fps`).
# This feature is currently supported only in vLLM.
#
# By default, `fps=2` and `do_sample_frames=True`.
# With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate.
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "mm_processor_kwargs": {"fps": 2, "do_sample_frames": True},
    }, 
)

print("Chat response:", chat_response)

指令（或非思考）模式

Important

Qwen3.6 官方不支持 Qwen3 的软切换，即 /think 和 /nothink。

Qwen3.6 默认会在响应前进行思考。你可以通过配置 API 参数让模型直接响应，无需思考。例如，

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.6/demo/RealWorld/RealWorld-04.png"
                }
            },
            {
                "type": "text",
                "text": "Where is this?"
            }
        ]
    }
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False},
    }, 
)
print("Chat response:", chat_response)

Note

若您使用阿里云模型 Studio 的 API，除了修改 model 外，请使用 "enable_thinking": False，而非 "chat_template_kwargs": {"enable_thinking": False}。

保留思考过程

默认情况下，仅保留处理最新用户消息时生成的思考块，形成通常所说的交错思考模式。 Qwen3.6 经过额外训练，能够保留并利用历史消息中的思考痕迹。您可以通过设置 preserve_thinking 选项来启用此功能：

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [...]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"preserve_thinking": True},
    }, 
)
print("Chat response:", chat_response)

Note

若您使用的是阿里云模型 Studio 的 API，除了修改 model 外，请使用 "preserve_thinking": True，而非 "chat_template_kwargs": {"preserve_thinking": False}。

此功能在智能体场景中尤为实用，通过保留完整的推理上下文，可增强决策一致性，并且在多数情况下能减少重复推理，从而降低总体 token 消耗。此外，它还能提升 KV 缓存的利用率，在思考模式与非思考模式下均优化推理效率。

智能体使用

Qwen3.6 在工具调用能力方面表现出色。

Qwen-Agent

我们建议使用 Qwen-Agent，以便结合 Qwen3.6 快速构建智能体应用。

您可以通过 MCP 配置文件定义可用工具，也可使用 Qwen-Agent 的集成工具，或自行集成其他工具。

import os
from qwen_agent.agents import Assistant

# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
    # Use the OpenAI-compatible model service provided by DashScope:
    'model': 'Qwen3.6-35B-A3B',
    'model_type': 'qwenvl_oai',
    'model_server': 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    'api_key': os.getenv('DASHSCOPE_API_KEY'),

    'generate_cfg': {
        'use_raw_api': True,
        # When using Dash Scope OAI API, pass the parameter of whether to enable thinking mode in this way
        'extra_body': {
            'enable_thinking': True,
            'preserve_thinking': True,
        },
    },
}

# Using OpenAI-compatible API endpoint.
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations.
#
# llm_cfg = {
#     # Use your own model service compatible with OpenAI API by vLLM/SGLang:
#     'model': 'Qwen/Qwen3.6-35B-A3B',
#     'model_type': 'qwenvl_oai',
#     'model_server': 'http://localhost:8000/v1',  # api_base
#     'api_key': 'EMPTY',
#
#     'generate_cfg': {
#         'use_raw_api': True,
#         # When using vLLM/SGLang OAI API, pass the parameter of whether to enable thinking mode in this way
#         'extra_body': {
#             'chat_template_kwargs': {'enable_thinking': True, 'preserve_thinking': True}
#         },
#     },
# }

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            "filesystem": {
                "command": "npx",
                "args": ["-y", "@modelcontextprotocol/server-filesystem", "/Users/xxxx/Desktop"]
            }
        }
    }
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'Help me organize my desktop.'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

# Streaming generation
messages = [{'role': 'user', 'content': 'Develop a dog website and save it on the desktop'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Qwen Code

Qwen Code 是一款面向终端的开源 AI 智能体，专为 Qwen 模型优化。它能帮助您理解大型代码库、自动化繁琐工作，从而加快开发进度。

更多信息，请参阅 Qwen Code。

处理超长文本

Qwen3.6 原生支持最长 262,144 个 token 的上下文长度。对于总长度（包括输入和输出）超过此限制的长文本任务，我们建议使用 RoPE 缩放技术（如 YaRN）来有效处理长文本。

目前已有多个推理框架支持 YaRN，例如 transformers、vllm、ktransformers 和 sglang。通常，在支持的框架中启用 YaRN 有两种方法：

修改模型配置文件：在 config.json 文件中，将 text_config 中的 rope_parameters 字段修改为：

{
    "mrope_interleaved": true,
    "mrope_section": [
        11,
        11,
        10
    ],
    "rope_type": "yarn",
    "rope_theta": 10000000,
    "partial_rotary_factor": 0.25,
    "factor": 4.0,
    "original_max_position_embeddings": 262144,
}

传递命令行参数：

对于 vllm，您可以使用

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --hf-overrides '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --max-model-len 1010000

对于 sglang 和 ktransformers，您可以使用

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"text_config": {"rope_parameters": {"mrope_interleaved": true, "mrope_section": [11, 11, 10], "rope_type": "yarn", "rope_theta": 10000000, "partial_rotary_factor": 0.25, "factor": 4.0, "original_max_position_embeddings": 262144}}}' --context-length 1010000

Note

所有主流开源框架均实现了静态 YaRN，这意味着缩放因子不随输入长度变化，可能会影响短文本的性能。 我们建议仅在需要处理长上下文时才修改 rope_parameters 配置。同时，建议根据需要调整 factor。例如，如果您的应用程序通常处理 524,288 个 token 的上下文长度，将 factor 设置为 2.0 会更合适。

最佳实践

为实现最佳性能，我们建议采用以下设置：

采样参数：
- 建议根据模式和任务类型使用以下采样参数组合：
  - 通用任务思考模式：
    temperature=1.0，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
  - 精确编码任务思考模式（如Web开发）：
    temperature=0.6，top_p=0.95，top_k=20，min_p=0.0，presence_penalty=0.0，repetition_penalty=1.0
  - 通用任务指令（非思考）模式：
    temperature=0.7，top_p=0.8，top_k=20，min_p=0.0，presence_penalty=1.5，repetition_penalty=1.0
  - 推理任务指令（非思考）模式：
    temperature=1.0，top_p=1.0，top_k=40，min_p=0.0，presence_penalty=2.0，repetition_penalty=1.0
- 在支持的框架中，可将presence_penalty参数调整在0到2之间以减少无意义重复。但较高的参数值偶尔可能导致语言混杂，并略微降低模型性能。
充足的输出长度：对于大多数查询，建议使用32,768 tokens的输出长度。在数学和编程竞赛等高度复杂问题的基准测试中，建议将最大输出长度设置为81,920 tokens。这为模型生成详细全面的响应提供了足够空间，从而提升整体性能。
标准化输出格式：进行基准测试时，建议通过提示词标准化模型输出。
- 数学问题：在提示词中加入“请逐步推理，并将最终答案放在\boxed{}内。”
- 选择题：在提示词中添加以下JSON结构以规范响应：“请在answer字段中仅用选项字母展示您的选择，例如："answer": "C"。”
长视频理解：为优化纯文本和图像的推理效率，已发布的video_preprocessor_config.json中size参数采用保守配置。建议将视频预处理配置文件中的longest_edge参数设置为469,762,048（对应224k视频tokens），以支持小时级视频的更高帧率采样，从而获得更优性能。例如：
```
{"longest_edge": 469762048, "shortest_edge": 4096}
```
或者，通过引擎启动参数覆盖默认值。实现细节请参考：vLLM / SGLang。

引用

如果您觉得我们的工作有帮助，欢迎引用我们的成果。

@misc{qwen36_35b_a3b,
    title = {{Qwen3.6-35B-A3B}: Agentic Coding Power, Now Open to All},
    url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b},
    author = {{Qwen Team}},
    month = {April},
    year = {2026}
}

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

语言类型

Jinja100%

Qwen3.6-35B-A3B-uncensored-heretic:基于 Heretic v1.2.0 的文本生成模型项目

🚨⚠️ 我已达到Hugging Face的免费存储上限 ⚠️🚨

拒绝率降低88%（无审查版为10/100，原版为83/100），同时保持模型质量（KL散度0.0015）。

❤️ 支持我的工作

这是 Qwen/Qwen3.6-35B-A3B 的去审查版本，使用 Heretic v1.2.0 以及 Magnitude-Preserving Orthogonal Ablation (MPOA) 方法的一种变体制作而成

消融参数

目标组件

性能

MMLU 测试结果：

GGUF 版本

Qwen3.6-35B-A3B

Qwen3.6 亮点

模型概述

基准测试结果

语言能力

视觉语言

快速入门

部署 Qwen3.6

SGLang

vLLM

KTransformers

Hugging Face Transformers

通过聊天补全 API 使用 Qwen3.6

Text-Only Input

图像输入

视频输入

指令（或非思考）模式

保留思考过程

智能体使用

Qwen-Agent

Qwen Code

处理超长文本

最佳实践

引用

项目介绍

下载使用量

语言类型

目录