Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled:基于 HuggingFace 生态的推理增强型文本生成项目

可用于编码辅助、规划、数学推理及结构化分析等推理密集型文本任务。该项目通过在 Claude Opus 4.6 推理数据上对 Qwen3.6-35B-A3B 进行 SFT 微调,增强模型结构化推理能力,保留其原有的代理编码能力,提升长文本问题解决稳定性。【此简介由AI生成】

分支1Tags0
文件最后提交记录最后更新时间
Upload trained Qwen3.6 LoRA adapter1 个月前
Update model card content1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
(Trained with Unsloth)1 个月前
Upload trained Qwen3.6 LoRA adapter1 个月前
Upload trained Qwen3.6 LoRA adapter1 个月前
(Trained with Unsloth)1 个月前

base_model: Qwen/Qwen3.6-35B-A3B base_model_relation: finetune library_name: transformers pipeline_tag: image-text-to-text license: apache-2.0 language:

  • en datasets:
  • nohurry/Opus-4.6-Reasoning-3000x-filtered
  • Jackrong/Qwen3.5-reasoning-700x
  • Roman1111111/claude-opus-4.6-10000x tags:
  • transformers
  • safetensors
  • qwen
  • qwen3.6
  • qwen3_5_moe
  • moe
  • unsloth
  • trl
  • reasoning
  • chain-of-thought
  • conversational
  • image-text-to-text
  • text-generation-inference
  • vllm model-index:
  • name: Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled results:
    • task: type: text-generation name: Text Generation dataset: type: TIGER-Lab/MMLU-Pro name: MMLU-Pro split: test metrics:
      • type: exact_match name: exact_match, custom-extract, limited sample value: 75.71

🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

基于Qwen/Qwen3.6-35B-A3B模型进行的推理SFT微调,主要通过从Claude Opus 4.6提取的思维链(CoT)蒸馏数据训练而成。本项目旨在保留Qwen3.6强大的智能体编码与推理基础,同时引导模型形成结构化的Claude Opus风格推理轨迹,并提升其长文本问题解决的稳定性。

训练路径仅限文本。Qwen3.6基础架构包含视觉编码器,但本次微调未使用图像或视频样本进行训练。

本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发,包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。

在X上关注 Discord

基准测试结果

MMLU-Pro测试中,每个模型使用70道题:在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考,非发布级完整基准测试。

基准测试 测试工具 每个模型样本数 设置 指标 基础模型 微调后合并模型 差值
MMLU-Pro 总体 lm-evaluation-harness 70 在14个科目中--limit 5 exact_match, custom-extract 42.86% 75.71% +32.85 pp

基础模型:Qwen/Qwen3.6-35B-A3B。微调模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

Warning

欢迎社区基准测试

为更好地了解此微调模型的性能,欢迎进行独立基准测试。若您开展评估,请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。

可通过提交PR/讨论或在X上私信@hesamation分享结果。

Qwen3.6 基础版亮点

本次发布带来了重大升级,尤其在以下方面:

  • 智能体编码能力:该模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
  • 思维保持功能:Qwen 引入了一项新选项,可保留历史消息中的推理上下文,从而简化迭代开发并减少额外开销。

基准测试结果

更多详情,请参阅 Qwen 博客文章 Qwen3.6-35B-A3B

基础模型概述

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练
  • 语言模型:
    • 参数数量:总计 350 亿,激活 30 亿
    • 隐藏维度:2048
    • 令牌嵌入:248320(已填充)
    • 层数:40
    • 隐藏层结构:10 × (3 × (门控 DeltaNet -> MoE) -> 1 × (门控注意力 -> MoE))
    • 门控 DeltaNet:
      • 线性注意力头数量:V 为 32,QK 为 16
      • 头维度:128
    • 门控注意力:
      • 注意力头数量:Q 为 16,KV 为 2
      • 头维度:256
      • 旋转位置嵌入维度:64
    • 混合专家(Mixture Of Experts):
      • 专家数量:256
      • 激活专家数量:8 个路由专家 + 1 个共享专家
      • 专家中间维度:512
    • 语言模型输出:248320(已填充)
    • MTP:采用多步训练
  • 上下文长度:原生支持 262,144 令牌,可扩展至 1,010,000 令牌。

基础模型基准测试结果

下表源自上游 Qwen3.6-35B-A3B 版本发布内容,仅作为基础模型参考。除非上述微调基准测试表中明确说明,否则此表不代表本微调 checkpoint 的基准测试结果。

类别 基准测试 Qwen3.5-27B Gemma4-31B Qwen3.5-35BA3B Gemma4-26BA4B Qwen3.6-35BA3B
编码智能体 SWE-bench Verified 75.0 52.0 70.0 17.4 73.4
编码智能体 SWE-bench Multilingual 69.3 51.7 60.3 17.3 67.2
编码智能体 SWE-bench Pro 51.2 35.7 44.6 13.8 49.5
编码智能体 Terminal-Bench 2.0 41.6 42.9 40.5 34.2 51.5
编码智能体 Claw-Eval Avg 64.3 48.5 65.4 58.8 68.7
编码智能体 Claw-Eval Pass^3 46.2 25.0 51.0 28.0 50.0
编码智能体 SkillsBench Avg5 27.2 23.6 4.4 12.3 28.7
编码智能体 QwenClawBench 52.2 41.7 47.7 38.7 52.6
编码智能体 NL2Repo 27.3 15.5 20.5 11.6 29.4
编码智能体 QwenWebBench 1068 1197 978 1178 1397
通用智能体 TAU3-Bench 68.4 67.5 68.9 59.0 67.2
通用智能体 VITA-Bench 41.8 43.0 29.1 36.9 35.6
通用智能体 DeepPlanning 22.6 24.0 22.8 16.2 25.9
通用智能体 Tool Decathlon 31.5 21.2 28.7 12.0 26.9
通用智能体 MCPMark 36.3 18.1 27.0 14.2 37.0
通用智能体 MCP-Atlas 68.4 57.2 62.4 50.0 62.8
通用智能体 WideSearch 66.4 35.2 59.1 38.3 60.1
知识 MMLU-Pro 86.1 85.2 85.3 82.6 85.2
知识 MMLU-Redux 93.2 93.7 93.3 92.7 93.3
知识 SuperGPQA 65.6 65.7 63.4 61.4 64.7
知识 C-Eval 90.5 82.6 90.2 82.5 90.0
STEM 与推理 GPQA 85.5 84.3 84.2 82.3 86.0
STEM 与推理 HLE 24.3 19.5 22.4 8.7 21.4
STEM 与推理 LiveCodeBench v6 80.7 80.0 74.6 77.1 80.4
STEM 与推理 HMMT Feb 25 92.0 88.7 89.0 91.7 90.7
STEM 与推理 HMMT Nov 25 89.8 87.5 89.2 87.5 89.1
STEM 与推理 HMMT Feb 26 84.3 77.2 78.7 79.0 83.6
STEM 与推理 IMOAnswerBench 79.9 74.5 76.8 74.3 78.9
STEM 与推理 AIME26 92.6 89.2 91.0 88.3 92.7

上游 Qwen3.6 版本发布说明:

  • SWE-Bench 系列:内部智能体脚手架,配备 bash 和文件编辑工具;温度参数=1.0,top_p=0.95,200K 上下文窗口。
  • Terminal-Bench 2.0:采用 Harbor/Terminus-2 测试框架;3 小时超时,32 CPU/48 GB 内存;温度参数=1.0,top_p=0.95,top_k=20,最大令牌数=80K,256K 上下文;5 次运行的平均值。
  • SkillsBench:通过 OpenCode 在 78 个任务上进行评估,使用不包含 API 依赖任务的独立子集;5 次运行的平均值。
  • NL2Repo:其他模型通过 Claude Code 进行评估,温度参数=1.0,top_p=0.95,最大轮次=900。
  • QwenClawBench:内部真实用户分布的 Claw 智能体基准测试;温度参数=0.6,256K 上下文。
  • QwenWebBench:内部前端代码生成基准测试;双语(英文/中文),七个类别,自动渲染加多模态评判,BT/Elo 评分系统。
  • TAU3-Bench:官方用户模型,采用 gpt-5.2 低推理成本和默认 BM25 检索。
  • VITA-Bench:子领域分数平均值,使用 claude-4-sonnet 作为评判者。
  • MCPMark:GitHub MCP v0.30.3,Playwright 响应截断至 32K 令牌。
  • MCP-Atlas:公开集分数,gemini-2.5-pro 作为评判者。
  • AIME 26:完整的 2026 年 AIME I 和 II 卷。

训练流程

Qwen/Qwen3.6-35B-A3B
  -> supervised fine-tuning with LoRA
  -> merged full model
  -> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

训练配置:

设置
微调方法 结合LoRA的监督式微调
LoRA目标 仅注意力模块
LoRA秩/alpha值 32 / 32
微批次大小 1
梯度累积 32
训练轮次 2
已完成步数 762 / 762
最终报告训练损失 0.3362497625740494
数据集最大令牌数 8192
最大序列长度 32768

训练数据

本方案从三个数据集中抽样并规范化推理对话,然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。

数据集 请求样本数量 角色
nohurry/Opus-4.6-Reasoning-3000x-filtered 3,900 Claude Opus推理轨迹
Jackrong/Qwen3.5-reasoning-700x 700 精选Qwen推理样本
Roman1111111/claude-opus-4.6-10000x 9,633 额外Claude Opus推理示例

预期用途

该模型适用于推理密集型文本工作流,如代码辅助、规划、数学式推理和结构化分析响应。由于微调仅针对文本,图像/视频处理能力应视为继承自基础模型,而非本次训练所改进。

致谢

感谢Qwen团队提供基础模型,Unsloth提供训练框架,以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。

项目介绍

可用于编码辅助、规划、数学推理及结构化分析等推理密集型文本任务。该项目通过在 Claude Opus 4.6 推理数据上对 Qwen3.6-35B-A3B 进行 SFT 微调,增强模型结构化推理能力,保留其原有的代理编码能力,提升长文本问题解决稳定性。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Jinja100%