Quantizer 模型量化调优

Quantizer 是面向 msModelSlim 模型量化场景的 Agent，负责通过端到端调优流程完成量化精度调优：用户以自然语言描述需求，Agent 编排环境检查、模型准备、配置搜索、量化执行与精度评测，在指定精度约束下搜索满足要求的量化配置并交付量化权重。

Agent 定位

请准备推理运行环境，推荐使用 vllm-ascend 镜像，使用 Docker 安装 vllm-ascend 指导：vllm-ascend安装，推荐在容器内安装 msagent 并使用 Quantizer
请根据模型安装合适的 transformers 版本，特殊说明：如果 msModelSlim 模型量化与推理引擎服务化要求的 transformers 版本不一致，可以将相关信息告知 Agent，让其自行管理使用对应版本。
量化调优需在容器内安装 msModelSlim ；安装指导见 msModelSlim 安装
调优评测依赖 AISBench 评测服务，安装与使用说明见其 README；测评所需数据集（如 gpqa、aime25 等）须自行准备，可参考 AISBench 数据集准备指南

信息	说明
模型路径	本地目录或 HuggingFace 仓库名
保存路径	量化产物与过程输出目录
量化方案	如 W8A8；未说明时 Agent 会提议默认方案并经你确认
设备	NPU / CUDA / CPU 及卡号
精度需求	相对容差（如「精度损失不超过 2%」）或绝对目标（如「gsm8k 不低于 83%」）
`trust_remote_code`	使用 HuggingFace 自定义代码模型时需确认

Quantizer 按以下阶段编排（各阶段经用户确认后进入下一步）：

各阶段由专用 SubAgent 分工完成：

SubAgent	所属阶段	职责
`msmodelslim-model-analysis`	模型准备	适配前分析：实现来源、结构 / MoE / 逐层加载等风险评估
`msmodelslim-model-adapt`	模型准备	分析通过后：适配模板、注册、`config.ini` 与四步验证
`quant-tuning-evaluation-generator`	量化配置调优	生成测评配置（Evaluation YAML）
`quant-tuning-practice-generator`	量化配置调优	生成 / 调整量化配置（Practice YAML）
`quant-tuning-quantizer`	量化配置调优	依据 Practice YAML 执行模型量化
`quant-tuning-evaluator`	量化配置调优	对量化模型执行 AISBench 精度评测

当目标 model_type 尚未在 msModelSlim config.ini 中注册时，Agent 委派分析与适配 SubAgent，完成后继续进入量化配置调优。

该子流程主要完成：