可用于本地部署进行文本对话、编码及图文转换等任务。项目将 Qwen3.6-27B 模型打包为 TQ3_4S GGUF 格式，支持文本与多模态两种模式，需配合 TurboQuant 兼容运行时使用。【此简介由AI生成】

SsystemUpload README.md with huggingface_hub

文件	最后提交记录	最后更新时间
.gitattributes	Add Qwen3.6-27B multimodal projector	1 个月前
Qwen3.6-27B-TQ3_4S.ggufLFS	Upload Qwen3.6-27B-TQ3_4S.gguf with huggingface_hub	1 个月前
README.md	Upload README.md with huggingface_hub	29 天前
chat_template.jinja	Upload chat_template.jinja with huggingface_hub	1 个月前
mmproj.ggufLFS	Add Qwen3.6-27B multimodal projector	1 个月前
thumbnail.png	Upload thumbnail.png with huggingface_hub	1 个月前

自动翻译

license: apache-2.0 base_model:

Qwen/Qwen3.6-27B tags:
qwen3.6
gguf
tq3_4s
turboquant
vision
multimodal pipeline_tag: image-text-to-text language:
en
zh
multilingual

Qwen3.6-27B-TQ3_4S

TQ3_4S 版本发布

本仓库将模型打包为 TurboQuant TQ3_4S GGUF 格式，以便本地部署。

运行时兼容性

此量化版本需要支持 TurboQuant 的运行时环境。对于 llama.cpp，若需原生支持 TQ3_4S，请使用 turbo-tan/llama.cpp-tq3 分支，而非官方上游版本。

TurboQuant 运行时分支：turbo-tan/llama.cpp-tq3
LM Studio 设置：docs/backend/LMStudio.md

文件信息

文件	量化方式	大小
`Qwen3.6-27B-TQ3_4S.gguf`	TQ3_4S	~13.0 GB
`chat_template.jinja`	对话模板	文本
`thumbnail.png`	模型卡片图片	png

本地验证

硬件配置：

RTX 5060 Ti 16 GB

提示词处理：

llama-perplexity --chunks 10 -c 2048
PPL = 6.2452 +/- 0.16138
提示词评测 = 712.02 令牌/秒

在 RTX 5060 Ti 上使用推荐的 KV 设置进行 16 GB 显存适配性检查：

32k 上下文可适配
64k 上下文可适配
128k 上下文不可适配

运行时注意事项

为获得最佳性能，请使用支持 TurboQuant 的 llama.cpp 构建版本。
对于 llama.cpp，建议使用 turbo-tan/llama.cpp-tq3 分支作为运行时环境。
上游模型支持多模态能力，但此处使用的公开 27B 仓库目前未提供单独的 GGUF mmproj 工件。
若使用 llama.cpp 进行对话，需启用 --jinja 选项，以确保捆绑的对话模板生效。
上游指南建议，在处理推理密集型任务时，尽可能保持至少 128K 的上下文长度。对于显存较小的本地 GPU，可根据需要减少上下文长度以适配内存。
上游默认采样策略在思考模式和非思考模式下有所不同；若需复现基础模型行为，请参考官方 Qwen 卡片说明。

示例

llama-cli \
  -m Qwen3.6-27B-TQ3_4S.gguf \
  --jinja \
  -ngl 99 \
  -c 4096

构建/运行时：

git clone https://github.com/turbo-tan/llama.cpp-tq3

Qwen3.6 基础模型

Note

上游 Qwen 仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。

这些上游制品与 Hugging Face Transformers、vLLM、SGLang、KTransformers 及相关运行时兼容。

继 2 月发布 Qwen3.5 系列之后，Qwen 推出 Qwen3.6，作为首个开源权重的 Qwen3.6 变体，旨在提升稳定性和实际应用价值。

Qwen3.6 亮点

智能体编码能力：该模型能更流畅、精准地处理前端工作流和仓库级推理任务。
思维保持能力：模型家族可跨历史对话轮次保留推理上下文，减少迭代工作中的额外开销。

Benchmark Results

模型概览

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
架构：qwen35
参数规模：27B
层数：64
嵌入维度：5120
FFN 维度：17408
隐藏层布局：16 × (3 × (Gated DeltaNet -> FFN) -> 1 × (Gated Attention -> FFN))
Gated DeltaNet 头数：V 为 48，QK 为 16，头维度 128
Gated Attention 头数：Q 为 24，KV 为 4，头维度 256
RoPE 维度：64
原生上下文长度：262,144

精选上游基准测试亮点

SWE-bench Verified：77.2
Terminal-Bench 2.0：59.3
SkillsBench Avg5：48.2
GPQA Diamond：87.8
AIME26：94.1
MMMU：82.9
AndroidWorld：70.3

来源

上游基础模型：Qwen/Qwen3.6-27B
用于转换的上游 GGUF 源：unsloth/Qwen3.6-27B-GGUF
上游博客及基准测试背景：Qwen3.6-27B model card
TurboQuant 运行时分支：turbo-tan/llama.cpp-tq3

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

语言类型

Jinja100%

Qwen3.6-27B-TQ3_4S:基于 TurboQuant 的多模态量化模型项目