详解如何在各类LLM/AI应用中设置和更改混合专家模型,包含MOE模型链接及实用资源,助力提升生成质量与指令遵循能力。【此简介由AI生成】
license: apache-2.0 language:
- en tags:
- MOE
- Mixture of Experts
- Mixtral
- 4X8
- 2X8
- deepseek
- reasoning
- reason
- thinking
- all use cases
- bfloat16
- float32
- float16
- role play
- sillytavern
- backyard
- lmstudio
- Text Generation WebUI
- llama 3
- mistral
- llama 3.1
- qwen 2.5
- context 128k
- mergekit
- merge pipeline_tag: text-generation
如何设置和管理MOE专家混合模型的专家激活
本文档探讨如何在各类LLM/AI应用中设置/调整专家混合配置,并提供相关MOE模型资源链接及其他实用参考资料。
相关链接:
专家混合模型集(含推理/思考型) - GGUF格式:
全模型源代码 - 含GGUF、AWQ、HQQ、GPTQ、EXL2格式及直接使用版本(包含MOE模型):
补充资源:
#1 全推理/思考模型集(含MOE) - (合集)(GGUF格式):
#2 全推理/思考模型集(含MOE) - (生成GGUF/EXL2/AWQ/GPTQ/HQQ等格式的源代码及直接使用版本):
#3 全适配器合集 - 将普通模型转换为推理/思考模型:
这些合集将持续更新,最新内容通常位于各合集底部。
核心文档 - LLM/AI应用中的专家混合设置
专家激活/构建本模型的组件模型:
专家数量可设置为1、2、4、8或更多,但通常使用1至4个专家。
该"团队"设有一名队长(列首模型),全体成员每秒共同参与数十亿次的"token"选择决策。请注意队长同样参与决策。
可将其想象为厨房中有2、3或4位(或更多)主厨同时为您竞相烹制最佳菜肴。
这种机制可显著提升生成质量。
在多数情况下还能增强指令遵循能力。
这意味着每个模型的能力都在指令处理和输出生成过程中得以充分发挥。
注意:
单专家模式虽可用,但会导致每次随机选择专家,造成相同提示词可能产生截然不同的生成结果。
调整专家数量:
在LMStudio (https://lmstudio.ai) 中,可通过加载界面设置专家数量;其他LLM应用可通过"Experts"或"Number of Experts"参数调整。
在Text-Generation-Webui (https://github.com/oobabooga/text-generation-webui) 中,需在模型加载页面设置专家数量。
KolboldCPP (https://github.com/LostRuins/koboldcpp) 1.8+版本中,点击加载界面的"TOKENS"选项,在此页面设置专家数量后启动模型。
对于server.exe/Llama-server.exe (Llamacpp - https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md),需在启动命令中添加: "--override-kv llama.expert_used_count=int:3" (无需引号,"3"代表使用的专家数量)
API调用时,需在JSON载荷中设置"num_experts_used"参数(不同后端可能存在差异)。
建议:
本资源库中的MOE模型: [ https://huggingface.co/collections/DavidAU/d-au-moe-mixture-of-experts-models-see-also-source-coll-67579e54e1a2dd778050b928 ]
包含多种示例,展示2、4、8专家配置的生成效果对比。
通过这些示例可更直观了解专家数量调整对生成质量的影响规律。