Qwen3.6-35B-A3B-TQ3_4S:基于GGUF和TurboQuant的量化模型项目

可用于在16GB VRAM设备上运行多模态对话与工具调用任务。该项目是Qwen3.6-35B-A3B的TQ3_4S量化版本,采用混合精度MoE压缩,实现2位专家、4位注意力,支持图像文本处理,工具调用测试表现优异。【此简介由AI生成】

分支1Tags0

license: apache-2.0 base_model:

  • Qwen/Qwen3.6-35B-A3B language:
  • en tags:
  • GGUF
  • llama.cpp
  • qwen3.6
  • qwen
  • quantization
  • turboquant
  • tq3_4s
  • multimodal
  • Mixture of Experts
  • conversational pipeline_tag: image-text-to-text

thumbnail

Qwen3.6-35B-A3B-TQ3_4S

采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家,4位注意力。

文件

文件 说明
Qwen3.6-35B-A3B-TQ3_4S.gguf 主模型(12.4 GiB,3.07 BPW)
mmproj-BF16.gguf 多模态投影器(BF16)

量化

MoE专家可承受深度压缩,因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性:

组件 量化方式 原理
专家MLP门控/上采样 Q2_K 占参数的98%,MoE容错
专家MLP下采样 Q3_K 写回敏感性
注意力Q/K/V/O TQ3_4S WHT保护
嵌入层+输出层 Q6_K 质量锚点

运行时要求

该模型需要公开的TurboQuant运行时分支:

推荐设置(16GB VRAM)

./build/bin/llama-server \
  -m Qwen3.6-35B-A3B-TQ3_4S.gguf \
  -ngl 99 -c 4096 -np 1 \
  -ctk q4_0 -ctv tq3_0 -fa on \
  --jinja \
  --reasoning off --reasoning-budget 0 --reasoning-format deepseek

具备视觉能力:

./build/bin/llama-server \
  -m Qwen3.6-35B-A3B-TQ3_4S.gguf \
  --mmproj mmproj-BF16.gguf \
  -ngl 99 -c 4096 -np 1 \
  -ctk q4_0 -ctv tq3_0 -fa on \
  --jinja --no-mmproj-offload \
  --reasoning off --reasoning-budget 0 --reasoning-format deepseek

性能表现(RTX 5060 Ti 16GB)

指标 数值
PP512 1832 tok/s
TG128 107 tok/s
模型大小 12.4 GiB
每权重比特数(BPW) 3.07
显卡层数量(ngl) 99(完全使用GPU)

可完全容纳于16GB显存中——无需CPU卸载。

质量评估

在标准问答基准测试中正确率达10/10(法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola)。

基础模型

许可证

Apache 2.0——与基础模型相同。

工具调用验证

已使用--jinja参数在--reasoning off--reasoning on --reasoning-budget 2048两种模式下进行测试:

测试项 reasoning off reasoning on
基础工具调用触发
工具响应→最终答案(无循环)
多选项中正确选择工具
简单问题无需工具调用
多步骤工具使用
嵌套引号转义重试(无循环)
总计 10/10 10/10

工具使用/智能体工作流推荐设置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

在工具调用场景中,避免将--presence-penalty设置为0.5以上——较高的值会增加推理标记的多样性,但不会改善结构化JSON输出,还可能导致智能体循环中出现重复的近乎相同的工具调用。

如果使用--reasoning on,请确保您的智能体框架能够检测连续的相同工具调用,并在2-3次重试后终止循环。

自行运行测试

chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085

项目介绍

可用于在16GB VRAM设备上运行多模态对话与工具调用任务。该项目是Qwen3.6-35B-A3B的TQ3_4S量化版本,采用混合精度MoE压缩,实现2位专家、4位注意力,支持图像文本处理,工具调用测试表现优异。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Shell100%