Qwen3.6-27B-TQ3_4S:基于 TurboQuant 的多模态量化模型项目

可用于本地部署进行文本对话、编码及图文转换等任务。项目将 Qwen3.6-27B 模型打包为 TQ3_4S GGUF 格式,支持文本与多模态两种模式,需配合 TurboQuant 兼容运行时使用。【此简介由AI生成】

分支1Tags0

license: apache-2.0 base_model:

  • Qwen/Qwen3.6-27B tags:
  • qwen3.6
  • gguf
  • tq3_4s
  • turboquant
  • vision
  • multimodal pipeline_tag: image-text-to-text language:
  • en
  • zh
  • multilingual

Qwen3.6-27B-TQ3_4S

Qwen Chat

TQ3_4S 版本发布

本仓库将模型打包为 TurboQuant TQ3_4S GGUF 格式,以便本地部署。

运行时兼容性

此量化版本需要支持 TurboQuant 的运行时环境。对于 llama.cpp,若需原生支持 TQ3_4S,请使用 turbo-tan/llama.cpp-tq3 分支,而非官方上游版本。

文件信息

文件 量化方式 大小
Qwen3.6-27B-TQ3_4S.gguf TQ3_4S ~13.0 GB
chat_template.jinja 对话模板 文本
thumbnail.png 模型卡片图片 png

本地验证

硬件配置:

  • RTX 5060 Ti 16 GB

提示词处理:

  • llama-perplexity --chunks 10 -c 2048
  • PPL = 6.2452 +/- 0.16138
  • 提示词评测 = 712.02 令牌/秒

在 RTX 5060 Ti 上使用推荐的 KV 设置进行 16 GB 显存适配性检查:

  • 32k 上下文可适配
  • 64k 上下文可适配
  • 128k 上下文不可适配

运行时注意事项

  • 为获得最佳性能,请使用支持 TurboQuant 的 llama.cpp 构建版本。
  • 对于 llama.cpp,建议使用 turbo-tan/llama.cpp-tq3 分支作为运行时环境。
  • 上游模型支持多模态能力,但此处使用的公开 27B 仓库目前未提供单独的 GGUF mmproj 工件。
  • 若使用 llama.cpp 进行对话,需启用 --jinja 选项,以确保捆绑的对话模板生效。
  • 上游指南建议,在处理推理密集型任务时,尽可能保持至少 128K 的上下文长度。对于显存较小的本地 GPU,可根据需要减少上下文长度以适配内存。
  • 上游默认采样策略在思考模式和非思考模式下有所不同;若需复现基础模型行为,请参考官方 Qwen 卡片说明。

推荐的 llama.cpp 设置

16 GB 设备的默认提示词处理设置:

llama-bench \
  -m Qwen3.6-27B-TQ3_4S.gguf \
  -ngl 99 \
  -ctk q4_0 \
  -ctv tq3_0 \
  -fa 1 \
  -p 2048 -n 0 -r 3

默认聊天/服务器设置:

llama-server \
  -m Qwen3.6-27B-TQ3_4S.gguf \
  --host 127.0.0.1 --port 8080 \
  -ngl 99 -c 4096 -np 1 \
  -ctk q4_0 -ctv tq3_0 -fa on \
  --jinja

示例

llama-cli \
  -m Qwen3.6-27B-TQ3_4S.gguf \
  --jinja \
  -ngl 99 \
  -c 4096

构建/运行时:

git clone https://github.com/turbo-tan/llama.cpp-tq3

Qwen3.6 基础模型

Note

上游 Qwen 仓库包含采用 Hugging Face Transformers 格式的后训练模型的权重及配置文件。

这些上游制品与 Hugging Face Transformers、vLLM、SGLang、KTransformers 及相关运行时兼容。

继 2 月发布 Qwen3.5 系列之后,Qwen 推出 Qwen3.6,作为首个开源权重的 Qwen3.6 变体,旨在提升稳定性和实际应用价值。

Qwen3.6 亮点

  • 智能体编码能力:该模型能更流畅、精准地处理前端工作流和仓库级推理任务。
  • 思维保持能力:模型家族可跨历史对话轮次保留推理上下文,减少迭代工作中的额外开销。

Benchmark Results

模型概览

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:qwen35
  • 参数规模:27B
  • 层数:64
  • 嵌入维度:5120
  • FFN 维度:17408
  • 隐藏层布局:16 × (3 × (Gated DeltaNet -> FFN) -> 1 × (Gated Attention -> FFN))
  • Gated DeltaNet 头数:V48QK16,头维度 128
  • Gated Attention 头数:Q24KV4,头维度 256
  • RoPE 维度:64
  • 原生上下文长度:262,144

精选上游基准测试亮点

  • SWE-bench Verified77.2
  • Terminal-Bench 2.059.3
  • SkillsBench Avg548.2
  • GPQA Diamond87.8
  • AIME2694.1
  • MMMU82.9
  • AndroidWorld70.3

来源

项目介绍

可用于本地部署进行文本对话、编码及图文转换等任务。项目将 Qwen3.6-27B 模型打包为 TQ3_4S GGUF 格式,支持文本与多模态两种模式,需配合 TurboQuant 兼容运行时使用。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Jinja100%