可用于复杂问题分析、数学解题和逻辑推理等任务。该项目通过蒸馏 Claude-4.6 Opus 推理轨迹，采用 SFT 与 LoRA 技术优化，提升结构化思维与推理效率，支持 16384 tokens 上下文。【此简介由AI生成】

SsystemDuplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

文件	最后提交记录	最后更新时间
.gitattributes	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q2_K.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q3_K_L.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q3_K_M.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q3_K_S.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q4_K_M.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q4_K_S.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q5_K_M.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q5_K_S.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q6_K.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
Qwen3.5-9B.Q8_0.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
README.md	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
config.json	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前
mmproj-BF16.ggufLFS	Duplicate from Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Co-authored-by: Jackrong <Jackrong@users.noreply.huggingface.co>	1 个月前

自动翻译

language:

en
zh license: apache-2.0 base_model: Qwen/Qwen3.5-9B tags:
unsloth
qwen
qwen3.5
reasoning
chain-of-thought
lora pipeline_tag: image-text-to-image datasets:
Jackrong/Qwen3.5-reasoning-700x
nohurry/Opus-4.6-Reasoning-3000x-filtered

🌟 Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled

🔥 更新（4月5日）：我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南，旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide 访问该仓库，深入了解代码库，并在本地或 Colab 上复现结果。

📥 核心技术文档

🔗 Qwopus3.5-27b 完整微调指南（PDF）

完整流程：从下载基础模型、统一异构数据，到配置训练器超参数以及发布至 Hugging Face 的详细分步指南。
新手友好：包含 Google Colab 和 Unsloth 的入门指南。
欢迎反馈！如果您发现任何需要改进的地方，请告知我，我将及时更新。

说明： 我的目标不仅仅是详述一个工作流程，更是为了揭开 LLM 训练的神秘面纱。抛开社交媒体上的炒作，微调并非遥不可及的仪式——通常，您所需要的只是一个 Google 账户、一台普通笔记本电脑，以及永不满足的好奇心。

没有人一开始就是专家，但每一位专家都曾勇敢地迈出第一步。

本项目的所有训练和测试均为自费。如果您觉得此模型或指南对您有帮助，在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢！🙏

Note

Claude 系列模型优化版本命名为 Qwopus3.5 系列，最新版本为 🌟Qwopus3.5-v3。

📢 公告

更新： 该模型已通过 从 Qwen3.5-27B 蒸馏的额外推理数据 得到进一步增强。

新的训练数据引入了更高质量的跨领域推理轨迹，例如 科学、指令遵循和数学。

部分数据来源于 Jackrong/Qwen3.5-reasoning-700x，这是一个精心策划的数据集，旨在提升 结构化分步推理 和 推理多样性。

HCaJnUQaoAAaMIc

💡 模型介绍

Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled 是一款基于 Qwen3.5-9B 密集型架构进行微调的高性能推理模型。该模型的核心目标是利用最先进的思维链（Chain-of-Thought，CoT）蒸馏技术，主要源自 Claude-4.6 Opus 的交互数据。

通过专注于结构化推理逻辑的监督微调（Supervised Fine-Tuning，SFT），该模型擅长拆解用户的复杂问题，在严格格式化的 </think> 标签内规划分步解决方法，并最终提供精准、细致的解决方案。

🗺️ 训练流程概述

Base Model (Qwen3.5-9B)
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n<think>")
 │
 ▼
Final Model Text-only (Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled)

🧠 已学习推理框架示例（示例）

该模型包含针对性优化，以解决Qwen3.5在简单查询上过度使用过渡性或重复性推理的倾向。通过对Claude-4.6-Opus推理链的深度蒸馏和结构模仿，模型采用了更高效的结构化思维模式：
“让我仔细分析这个请求：1..2..3...”
这种精简的推理范式在保留深度分析能力的同时，显著减少了冗余的认知循环，从而大幅提升了推理效率。

Let me analyze this request carefully:

1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
            .
            .
            .

🔹 监督微调（SFT）

目标：注入高密度推理逻辑，并为问题解决建立严格格式，要求在输出最终响应前包含内部思考状态。
方法：我们使用Unsloth进行高效的内存和计算优化。此阶段的关键组件是train_on_responses_only策略，通过对指令进行掩码处理，使损失仅基于</think>序列的生成和后续解决方案计算。
格式强制：所有训练样本均经过系统规范化，确保模型严格遵循<RichMediaReference> {内部推理} superscript:\n {最终答案}的结构。

📈 训练损失曲线

训练损失在整个过程中呈现出强劲且健康的下降趋势，表明知识蒸馏效果显著。从初始损失0.5138开始，模型稳步收敛至最终损失0.35786——这表明模型成功内化了来自Claude 4.6 Opus教师数据的结构化superscript:推理模式。

📚 使用的所有数据集

该数据集包含高质量、经过筛选的推理蒸馏数据：

数据集名称	描述/用途
nohurry/Opus-4.6-Reasoning-3000x-filtered	提供全面的Claude 4.6 Opus推理轨迹。
Jackrong/Qwen3.5-reasoning-700x	额外的精选推理样本，旨在加强结构化分步问题解决能力并提高推理多样性。

🌟 核心技能与能力

模块化与结构化思维：继承自Opus级推理的特性，模型能够自信地解析提示，在其superscript:块中按顺序建立规划大纲，而非探索性的“试错式”自我怀疑。
扩展上下文支持：针对16,384 token上下文窗口进行了平滑微调，使复杂的多步推理轨迹能够在内存限制内良好运行。

⚠️ 局限性与预期用途

幻觉风险：尽管推理能力较强，但该模型本质上仍是自回归大型语言模型；在思考过程中提供的外部事实若涉及现实世界事件验证，偶尔可能出现幻觉。
预期场景：最适合离线分析任务、编码、数学运算以及高度依赖逻辑的提示词场景，这类场景下用户需要能够清晰地跟踪AI的内部逻辑。

🙏 致谢

特别感谢 Unsloth AI 团队，他们让大型语言模型的快速微调变得触手可及。此外，我们感谢Qwen内部团队，以及开源社区中开发出优质蒸馏数据集（nohurry 和 TeichAI）的开发者们。

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF:基于 Qwen3.5 与 Unsloth 的推理增强模型项目