可用于在16GB VRAM设备上运行多模态对话与工具调用任务。该项目是Qwen3.6-35B-A3B的TQ3_4S量化版本，采用混合精度MoE压缩，实现2位专家、4位注意力，支持图像文本处理，工具调用测试表现优异。【此简介由AI生成】

SsystemUpload README.md with huggingface_hub

文件	最后提交记录	最后更新时间
.gitattributes	Upload Qwen3.6-35B-A3B-TQ3_4S.gguf with huggingface_hub	1 个月前
Qwen3.6-35B-A3B-TQ3_4S.ggufLFS	Upload Qwen3.6-35B-A3B-TQ3_4S.gguf with huggingface_hub	1 个月前
README.md	Upload README.md with huggingface_hub	1 个月前
mmproj-BF16.ggufLFS	Upload mmproj-BF16.gguf with huggingface_hub	1 个月前
test_tool_calls.sh	Upload test_tool_calls.sh with huggingface_hub	1 个月前
thumbnail.pngLFS	Upload thumbnail.png with huggingface_hub	1 个月前

自动翻译

license: apache-2.0 base_model:

Qwen/Qwen3.6-35B-A3B language:
en tags:
GGUF
llama.cpp
qwen3.6
qwen
quantization
turboquant
tq3_4s
multimodal
Mixture of Experts
conversational pipeline_tag: image-text-to-text

Qwen3.6-35B-A3B-TQ3_4S

采用TQ3_4S并结合混合精度MoE压缩对Qwen/Qwen3.6-35B-A3B进行的GGUF量化——2位专家，4位注意力。

文件

文件	说明
`Qwen3.6-35B-A3B-TQ3_4S.gguf`	主模型（12.4 GiB，3.07 BPW）
`mmproj-BF16.gguf`	多模态投影器（BF16）

量化

MoE专家可承受深度压缩，因为每个token仅激活256个专家中的8个。本量化利用这一不对称特性：

组件	量化方式	原理
专家MLP门控/上采样	Q2_K	占参数的98%，MoE容错
专家MLP下采样	Q3_K	写回敏感性
注意力Q/K/V/O	TQ3_4S	WHT保护
嵌入层+输出层	Q6_K	质量锚点

运行时要求

该模型需要公开的TurboQuant运行时分支：

https://github.com/turbo-tan/llama.cpp-tq3

性能表现（RTX 5060 Ti 16GB）

指标	数值
PP512	1832 tok/s
TG128	107 tok/s
模型大小	12.4 GiB
每权重比特数（BPW）	3.07
显卡层数量（ngl）	99（完全使用GPU）

可完全容纳于16GB显存中——无需CPU卸载。

质量评估

在标准问答基准测试中正确率达10/10（法国首都、2+2、Python字符串反转、重力、二战、质数、沸点、莎士比亚、木星、hello→Hola）。

基础模型

Qwen/Qwen3.6-35B-A3B
来源：unsloth/Qwen3.6-35B-A3B-GGUF（Q8_0版本）

许可证

Apache 2.0——与基础模型相同。

工具调用验证

已使用--jinja参数在--reasoning off和--reasoning on --reasoning-budget 2048两种模式下进行测试：

测试项	reasoning off	reasoning on
基础工具调用触发	✅	✅
工具响应→最终答案（无循环）	✅	✅
多选项中正确选择工具	✅	✅
简单问题无需工具调用	✅	✅
多步骤工具使用	✅	✅
嵌套引号转义重试（无循环）	✅	✅
总计	10/10	10/10

工具使用/智能体工作流推荐设置

--jinja --reasoning off --reasoning-budget 0 --reasoning-format deepseek

在工具调用场景中，避免将--presence-penalty设置为0.5以上——较高的值会增加推理标记的多样性，但不会改善结构化JSON输出，还可能导致智能体循环中出现重复的近乎相同的工具调用。

如果使用--reasoning on，请确保您的智能体框架能够检测连续的相同工具调用，并在2-3次重试后终止循环。

自行运行测试

chmod +x test_tool_calls.sh
./test_tool_calls.sh 8085

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

语言类型

Shell100%

Qwen3.6-35B-A3B-TQ3_4S:基于GGUF和TurboQuant的量化模型项目