可用于本地部署进行文本对话、编码及图文转换等任务。项目将 Qwen3.6-27B 模型打包为 TQ3_4S GGUF 格式,支持文本与多模态两种模式,需配合 TurboQuant 兼容运行时使用。【此简介由AI生成】
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 1 个月前 | ||
| 1 个月前 | ||
| 29 天前 | ||
| 1 个月前 | ||
mmproj.ggufLFS | 1 个月前 | |
| 1 个月前 |
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: apache-2.0 base_model:
- Qwen/Qwen3.6-27B tags:
- qwen3.6
- gguf
- tq3_4s
- turboquant
- vision
- multimodal pipeline_tag: image-text-to-text language:
- en
- zh
- multilingual
Qwen3.6-27B-TQ3_4S

TQ3_4S 版本发布
本仓库将模型打包为 TurboQuant TQ3_4S GGUF 格式,以便本地部署。
运行时兼容性
此量化版本需要支持 TurboQuant 的运行时环境。对于 llama.cpp,若需原生支持 TQ3_4S,请使用 turbo-tan/llama.cpp-tq3 分支,而非官方上游版本。
- TurboQuant 运行时分支:turbo-tan/llama.cpp-tq3
- LM Studio 设置:docs/backend/LMStudio.md
文件信息
| 文件 | 量化方式 | 大小 |
|---|---|---|
Qwen3.6-27B-TQ3_4S.gguf |
TQ3_4S | ~13.0 GB |
chat_template.jinja |
对话模板 | 文本 |
thumbnail.png |
模型卡片图片 | png |
本地验证
硬件配置:
- RTX 5060 Ti 16 GB
提示词处理:
llama-perplexity --chunks 10 -c 2048PPL = 6.2452 +/- 0.16138提示词评测 = 712.02 令牌/秒
在 RTX 5060 Ti 上使用推荐的 KV 设置进行 16 GB 显存适配性检查:
32k上下文可适配64k上下文可适配128k上下文不可适配
运行时注意事项
- 为获得最佳性能,请使用支持 TurboQuant 的 llama.cpp 构建版本。
- 对于 llama.cpp,建议使用
turbo-tan/llama.cpp-tq3分支作为运行时环境。 - 上游模型支持多模态能力,但此处使用的公开 27B 仓库目前未提供单独的 GGUF
mmproj工件。 - 若使用 llama.cpp 进行对话,需启用
--jinja选项,以确保捆绑的对话模板生效。 - 上游指南建议,在处理推理密集型任务时,尽可能保持至少
128K的上下文长度。对于显存较小的本地 GPU,可根据需要减少上下文长度以适配内存。 - 上游默认采样策略在思考模式和非思考模式下有所不同;若需复现基础模型行为,请参考官方 Qwen 卡片说明。
推荐的 llama.cpp 设置
16 GB 设备的默认提示词处理设置:
llama-bench \
-m Qwen3.6-27B-TQ3_4S.gguf \
-ngl 99 \
-ctk q4_0 \
-ctv tq3_0 \
-fa 1 \
-p 2048 -n 0 -r 3
默认聊天/服务器设置:
llama-server \
-m Qwen3.6-27B-TQ3_4S.gguf \
--host 127.0.0.1 --port 8080 \
-ngl 99 -c 4096 -np 1 \
-ctk q4_0 -ctv tq3_0 -fa on \
--jinja
示例
llama-cli \
-m Qwen3.6-27B-TQ3_4S.gguf \
--jinja \
-ngl 99 \
-c 4096
构建/运行时:
git clone https://github.com/turbo-tan/llama.cpp-tq3
Qwen3.6 基础模型
Note
上游 Qwen 仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。
这些上游制品与 Hugging Face Transformers、vLLM、SGLang、KTransformers 及相关运行时兼容。
继 2 月发布 Qwen3.5 系列之后,Qwen 推出 Qwen3.6,作为首个开源权重的 Qwen3.6 变体,旨在提升稳定性和实际应用价值。
Qwen3.6 亮点
- 智能体编码能力:该模型能更流畅、精准地处理前端工作流和仓库级推理任务。
- 思维保持能力:模型家族可跨历史对话轮次保留推理上下文,减少迭代工作中的额外开销。

模型概览
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
- 架构:
qwen35 - 参数规模:
27B - 层数:
64 - 嵌入维度:
5120 - FFN 维度:
17408 - 隐藏层布局:
16 × (3 × (Gated DeltaNet -> FFN) -> 1 × (Gated Attention -> FFN)) - Gated DeltaNet 头数:
V为48,QK为16,头维度128 - Gated Attention 头数:
Q为24,KV为4,头维度256 - RoPE 维度:
64 - 原生上下文长度:
262,144
精选上游基准测试亮点
SWE-bench Verified:77.2Terminal-Bench 2.0:59.3SkillsBench Avg5:48.2GPQA Diamond:87.8AIME26:94.1MMMU:82.9AndroidWorld:70.3
来源
- 上游基础模型:Qwen/Qwen3.6-27B
- 用于转换的上游 GGUF 源:unsloth/Qwen3.6-27B-GGUF
- 上游博客及基准测试背景:Qwen3.6-27B model card
- TurboQuant 运行时分支:turbo-tan/llama.cpp-tq3