可用于提升推理效率与降低成本，适用于离线分析、编码、数学及逻辑任务。该项目是Qwen3.5-27B的二次优化版本，通过蒸馏Claude 4.6 Opus推理模式，实现思维链长度减少约24%，每令牌正确解增加31.6%，同时保持高准确率。【此简介由AI生成】

SsystemUpdate README.md

deb8b51e创建于 3月21日26次提交

文件	最后提交记录	最后更新时间
.gitattributes	(Trained with Unsloth)	2 个月前
README.md	Update README.md	2 个月前
chat_template.jinja	(Trained with Unsloth)	2 个月前
config.json	(Trained with Unsloth)	2 个月前
model.safetensors-00001-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00002-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00003-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00004-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00005-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00006-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00007-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00008-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00009-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00010-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors-00011-of-00011.safetensorsLFS	(Trained with Unsloth)	2 个月前
model.safetensors.index.json	(Trained with Unsloth)	2 个月前
processor_config.json	(Trained with Unsloth)	2 个月前
tokenizer.jsonLFS	(Trained with Unsloth)	2 个月前
tokenizer_config.json	(Trained with Unsloth)	2 个月前

自动翻译

language:

en
zh
ko license: apache-2.0 base_model: Qwen/Qwen3.5-27B tags:
unsloth
qwen
qwen3.5
reasoning
chain-of-thought
lora pipeline_tag: image-text-to-text datasets:
nohurry/Opus-4.6-Reasoning-3000x-filtered
Jackrong/Qwen3.5-reasoning-700x
Roman1111111/claude-opus-4.6-10000x

🌟 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

📢 公告

v2 更新：

精度保持： 在 HumanEval 上与基础模型持平（96.91% pass@1）

推理更简洁： 思维链长度减少约24%

效率更高： 每 token 正确解数量增加31.6%

⚠️权衡： HumanEval+ 下降 1.24%，MMLU-Pro 下降 7.2%（表明一般知识推理能力有所降低）

⚠️注意：由于 SFT 数据的范围和训练重点，该模型在某些需要长上下文理解或更复杂多步骤推理的任务上可能表现不如基础模型。此处报告的效率和准确性结果仅基于 HumanEval 和 HumanEval+ 基准。感谢您的理解。

HCaJnUQaoAAaMIc

💡 模型介绍

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是这款专注于推理的 Qwen3.5-27B 微调模型的第二个版本，旨在大幅提升思维链生成的效率，在提高绝对准确性的同时，显著加快推理速度并降低成本。

与早期版本相比，v2 训练使用了 14,000 个 Claude 4.6 Opus 风格的通用推理样本，更加强调迁移简洁、可复用的推理模式，而非仅仅追求原始基准分数的最大化。v2 的目标不仅仅是让模型“思考更多”，而是帮助它更经济地思考：减少不必要的冗长内部链条，避免在简单问题上进行 verbose 的过度分析，并在超越基线基准正确性的同时，大幅提高推理成本与质量的比率。

v2 的一个关键设计选择是，蒸馏数据主要是通用领域的推理数据——特别聚焦于数学、文字题、逻辑推理，以及平衡的通用知识和指令混合——而非专门的代码密集型监督。因此，HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力和能力迁移，而非作为直接的优化目标。尽管缺乏以代码为中心的训练，但在这些基准上的高性能证实了模型的推理框架变得更加稳健和可迁移，证明基础推理逻辑可以有效支持编程等专业任务。

HumanEval 基准测试分析 🪐

两个模型的原始评估输出均通过 GPT-5.4-Pro-Thinking 进行了独立清洗、验证和聚合。最终对比结果基于这些标准化和精选后的输出。为确保可靠性，所有结果均通过 Claude-4.6-Opus-Thinking 进行了两轮独立验证并整合。

所有评估均在基于 Unsloth + vLLM（BF16）的推理环境中进行，以确保一致且高效的执行条件。

Screenshot 2026-03-20 at 3.54.26 PM

Screenshot 2026-03-20 at 3.54.51 PM

Screenshot 2026-03-20 at 3.58.30 PM

Screenshot 2026-03-20 at 3.55.49 PM

Screenshot 2026-03-20 at 3.56.01 PM

Screenshot 2026-03-20 at 3.56.18 PM

🗺️ 训练流程概述

Base Model (Qwen3.5-27B)
 │
 ▼
Qwen3.5-27B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n<think>")
 │
 ▼
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

🧠 学习型推理框架示例（示例）

该模型包含针对性优化，旨在解决Qwen3.5在简单查询上过度使用过渡性或重复性推理的倾向。通过对Claude-4.6-Opus推理链的深度蒸馏和结构模仿，模型采用了更高效的结构化思维模式：
“让我仔细分析这个请求：1..2..3...”
这种精简的推理范式在保留深度分析能力的同时，显著减少了冗余的认知循环，从而大幅提升了推理效率。

Let me analyze this request carefully:

1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
            .
            .
            .

📚 所使用的所有数据集

该数据集包含高质量、经过筛选的推理蒸馏数据：

数据集名称	描述/用途
nohurry/Opus-4.6-Reasoning-3000x-filtered	提供全面的 Claude 4.6 Opus 推理轨迹。
Roman1111111/claude-opus-4.6-10000x	大规模公开的 Claude 4.6 Opus 蒸馏数据，用于增强 v2 版本的通用推理迁移能力。
TeichAI/claude-4.5-opus-high-reasoning-250x	注入高强度、结构化的推理实例。
Jackrong/Qwen3.5-reasoning-700x	额外精选的推理样本，旨在加强结构化分步问题解决能力并提高推理多样性。

⚠️ 限制与预期用途

幻觉风险：尽管推理能力较强，但该模型仍是自回归大型语言模型；在思考过程中提供的外部事实若涉及现实世界事件的验证，偶尔可能包含幻觉内容。
预期场景：最适用于离线分析任务、编码、数学运算以及高度依赖逻辑的提示词场景，此类场景下用户需要透明地跟踪 AI 的内部逻辑。
本模型为测试版本，仅用于学习和演示目的，且仅限学术研究与技术探索使用。

🙏 致谢

特别感谢 Unsloth AI 团队，他们让大型语言模型的快速微调变得触手可及。此外，我们感谢内部的 Qwen 团队，以及制作出色蒸馏数据集的开源社区开发者们。

📖 引用

如果您在研究或项目中使用了本模型，请引用：

@misc{jackrong_qwen35_opus_distilled,
  title        = {Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2}}
}