可用于编码辅助、规划、数学推理及结构化分析等推理密集型文本任务。该项目通过在 Claude Opus 4.6 推理数据上对 Qwen3.6-35B-A3B 进行 SFT 微调,增强模型结构化推理能力,保留其原有的代理编码能力,提升长文本问题解决稳定性。【此简介由AI生成】
base_model: Qwen/Qwen3.6-35B-A3B base_model_relation: finetune library_name: transformers pipeline_tag: image-text-to-text license: apache-2.0 language:
- en datasets:
- nohurry/Opus-4.6-Reasoning-3000x-filtered
- Jackrong/Qwen3.5-reasoning-700x
- Roman1111111/claude-opus-4.6-10000x tags:
- transformers
- safetensors
- qwen
- qwen3.6
- qwen3_5_moe
- moe
- unsloth
- trl
- reasoning
- chain-of-thought
- conversational
- image-text-to-text
- text-generation-inference
- vllm model-index:
- name: Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
results:
- task:
type: text-generation
name: Text Generation
dataset:
type: TIGER-Lab/MMLU-Pro
name: MMLU-Pro
split: test
metrics:
- type: exact_match name: exact_match, custom-extract, limited sample value: 75.71
- task:
type: text-generation
name: Text Generation
dataset:
type: TIGER-Lab/MMLU-Pro
name: MMLU-Pro
split: test
metrics:
🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
基于Qwen/Qwen3.6-35B-A3B模型进行的推理SFT微调,主要通过从Claude Opus 4.6提取的思维链(CoT)蒸馏数据训练而成。本项目旨在保留Qwen3.6强大的智能体编码与推理基础,同时引导模型形成结构化的Claude Opus风格推理轨迹,并提升其长文本问题解决的稳定性。
训练路径仅限文本。Qwen3.6基础架构包含视觉编码器,但本次微调未使用图像或视频样本进行训练。
- 开发者: @hesamation
- 基础模型:
Qwen/Qwen3.6-35B-A3B - 许可证: apache-2.0
本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发,包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。
基准测试结果
MMLU-Pro测试中,每个模型使用70道题:在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考,非发布级完整基准测试。
| 基准测试 | 测试工具 | 每个模型样本数 | 设置 | 指标 | 基础模型 | 微调后合并模型 | 差值 |
|---|---|---|---|---|---|---|---|
| MMLU-Pro 总体 | lm-evaluation-harness | 70 | 在14个科目中--limit 5 |
exact_match, custom-extract | 42.86% | 75.71% | +32.85 pp |
基础模型:Qwen/Qwen3.6-35B-A3B。微调模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。
Warning
欢迎社区基准测试
为更好地了解此微调模型的性能,欢迎进行独立基准测试。若您开展评估,请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。
可通过提交PR/讨论或在X上私信@hesamation分享结果。
Qwen3.6 基础版亮点
本次发布带来了重大升级,尤其在以下方面:
- 智能体编码能力:该模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
- 思维保持功能:Qwen 引入了一项新选项,可保留历史消息中的推理上下文,从而简化迭代开发并减少额外开销。

更多详情,请参阅 Qwen 博客文章 Qwen3.6-35B-A3B。
基础模型概述
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
- 语言模型:
- 参数数量:总计 350 亿,激活 30 亿
- 隐藏维度:2048
- 令牌嵌入:248320(已填充)
- 层数:40
- 隐藏层结构:10 × (3 × (门控 DeltaNet -> MoE) -> 1 × (门控注意力 -> MoE))
- 门控 DeltaNet:
- 线性注意力头数量:V 为 32,QK 为 16
- 头维度:128
- 门控注意力:
- 注意力头数量:Q 为 16,KV 为 2
- 头维度:256
- 旋转位置嵌入维度:64
- 混合专家(Mixture Of Experts):
- 专家数量:256
- 激活专家数量:8 个路由专家 + 1 个共享专家
- 专家中间维度:512
- 语言模型输出:248320(已填充)
- MTP:采用多步训练
- 上下文长度:原生支持 262,144 令牌,可扩展至 1,010,000 令牌。
基础模型基准测试结果
下表源自上游 Qwen3.6-35B-A3B 版本发布内容,仅作为基础模型参考。除非上述微调基准测试表中明确说明,否则此表不代表本微调 checkpoint 的基准测试结果。
| 类别 | 基准测试 | Qwen3.5-27B | Gemma4-31B | Qwen3.5-35BA3B | Gemma4-26BA4B | Qwen3.6-35BA3B |
|---|---|---|---|---|---|---|
| 编码智能体 | SWE-bench Verified | 75.0 | 52.0 | 70.0 | 17.4 | 73.4 |
| 编码智能体 | SWE-bench Multilingual | 69.3 | 51.7 | 60.3 | 17.3 | 67.2 |
| 编码智能体 | SWE-bench Pro | 51.2 | 35.7 | 44.6 | 13.8 | 49.5 |
| 编码智能体 | Terminal-Bench 2.0 | 41.6 | 42.9 | 40.5 | 34.2 | 51.5 |
| 编码智能体 | Claw-Eval Avg | 64.3 | 48.5 | 65.4 | 58.8 | 68.7 |
| 编码智能体 | Claw-Eval Pass^3 | 46.2 | 25.0 | 51.0 | 28.0 | 50.0 |
| 编码智能体 | SkillsBench Avg5 | 27.2 | 23.6 | 4.4 | 12.3 | 28.7 |
| 编码智能体 | QwenClawBench | 52.2 | 41.7 | 47.7 | 38.7 | 52.6 |
| 编码智能体 | NL2Repo | 27.3 | 15.5 | 20.5 | 11.6 | 29.4 |
| 编码智能体 | QwenWebBench | 1068 | 1197 | 978 | 1178 | 1397 |
| 通用智能体 | TAU3-Bench | 68.4 | 67.5 | 68.9 | 59.0 | 67.2 |
| 通用智能体 | VITA-Bench | 41.8 | 43.0 | 29.1 | 36.9 | 35.6 |
| 通用智能体 | DeepPlanning | 22.6 | 24.0 | 22.8 | 16.2 | 25.9 |
| 通用智能体 | Tool Decathlon | 31.5 | 21.2 | 28.7 | 12.0 | 26.9 |
| 通用智能体 | MCPMark | 36.3 | 18.1 | 27.0 | 14.2 | 37.0 |
| 通用智能体 | MCP-Atlas | 68.4 | 57.2 | 62.4 | 50.0 | 62.8 |
| 通用智能体 | WideSearch | 66.4 | 35.2 | 59.1 | 38.3 | 60.1 |
| 知识 | MMLU-Pro | 86.1 | 85.2 | 85.3 | 82.6 | 85.2 |
| 知识 | MMLU-Redux | 93.2 | 93.7 | 93.3 | 92.7 | 93.3 |
| 知识 | SuperGPQA | 65.6 | 65.7 | 63.4 | 61.4 | 64.7 |
| 知识 | C-Eval | 90.5 | 82.6 | 90.2 | 82.5 | 90.0 |
| STEM 与推理 | GPQA | 85.5 | 84.3 | 84.2 | 82.3 | 86.0 |
| STEM 与推理 | HLE | 24.3 | 19.5 | 22.4 | 8.7 | 21.4 |
| STEM 与推理 | LiveCodeBench v6 | 80.7 | 80.0 | 74.6 | 77.1 | 80.4 |
| STEM 与推理 | HMMT Feb 25 | 92.0 | 88.7 | 89.0 | 91.7 | 90.7 |
| STEM 与推理 | HMMT Nov 25 | 89.8 | 87.5 | 89.2 | 87.5 | 89.1 |
| STEM 与推理 | HMMT Feb 26 | 84.3 | 77.2 | 78.7 | 79.0 | 83.6 |
| STEM 与推理 | IMOAnswerBench | 79.9 | 74.5 | 76.8 | 74.3 | 78.9 |
| STEM 与推理 | AIME26 | 92.6 | 89.2 | 91.0 | 88.3 | 92.7 |
上游 Qwen3.6 版本发布说明:
- SWE-Bench 系列:内部智能体脚手架,配备 bash 和文件编辑工具;温度参数=1.0,top_p=0.95,200K 上下文窗口。
- Terminal-Bench 2.0:采用 Harbor/Terminus-2 测试框架;3 小时超时,32 CPU/48 GB 内存;温度参数=1.0,top_p=0.95,top_k=20,最大令牌数=80K,256K 上下文;5 次运行的平均值。
- SkillsBench:通过 OpenCode 在 78 个任务上进行评估,使用不包含 API 依赖任务的独立子集;5 次运行的平均值。
- NL2Repo:其他模型通过 Claude Code 进行评估,温度参数=1.0,top_p=0.95,最大轮次=900。
- QwenClawBench:内部真实用户分布的 Claw 智能体基准测试;温度参数=0.6,256K 上下文。
- QwenWebBench:内部前端代码生成基准测试;双语(英文/中文),七个类别,自动渲染加多模态评判,BT/Elo 评分系统。
- TAU3-Bench:官方用户模型,采用 gpt-5.2 低推理成本和默认 BM25 检索。
- VITA-Bench:子领域分数平均值,使用 claude-4-sonnet 作为评判者。
- MCPMark:GitHub MCP v0.30.3,Playwright 响应截断至 32K 令牌。
- MCP-Atlas:公开集分数,gemini-2.5-pro 作为评判者。
- AIME 26:完整的 2026 年 AIME I 和 II 卷。
训练流程
Qwen/Qwen3.6-35B-A3B
-> supervised fine-tuning with LoRA
-> merged full model
-> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
训练配置:
| 设置 | 值 |
|---|---|
| 微调方法 | 结合LoRA的监督式微调 |
| LoRA目标 | 仅注意力模块 |
| LoRA秩/alpha值 | 32 / 32 |
| 微批次大小 | 1 |
| 梯度累积 | 32 |
| 训练轮次 | 2 |
| 已完成步数 | 762 / 762 |
| 最终报告训练损失 | 0.3362497625740494 |
| 数据集最大令牌数 | 8192 |
| 最大序列长度 | 32768 |
训练数据
本方案从三个数据集中抽样并规范化推理对话,然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。
| 数据集 | 请求样本数量 | 角色 |
|---|---|---|
nohurry/Opus-4.6-Reasoning-3000x-filtered |
3,900 | Claude Opus推理轨迹 |
Jackrong/Qwen3.5-reasoning-700x |
700 | 精选Qwen推理样本 |
Roman1111111/claude-opus-4.6-10000x |
9,633 | 额外Claude Opus推理示例 |
预期用途
该模型适用于推理密集型文本工作流,如代码辅助、规划、数学式推理和结构化分析响应。由于微调仅针对文本,图像/视频处理能力应视为继承自基础模型,而非本次训练所改进。
致谢
感谢Qwen团队提供基础模型,Unsloth提供训练框架,以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。