
SwanLab x CANN 社区合作课程
第 04 章 · 大语言模型推理部署
章节定位
本章聚焦"训练好的模型如何对外提供服务"这一环节,覆盖在昇腾 NPU 上的推理引擎选型、权重量化、批处理与服务化部署。 预期读者在学完本章后,能在 CANNLab 上把一个微调后的 Qwen3 模型起成一个对外的 HTTP / OpenAI 兼容服务,并理解吞吐、延迟、显存之间的权衡。
计划节次
| 节次 | 标题(暂定) | 状态 |
|---|---|---|
| 04.01 | 章节简介与推理瓶颈分析 | 建设中 |
| 04.02 | KV cache 与 continuous batching | 建设中 |
| 04.03 | 昇腾上的推理引擎选型与对比 | 建设中 |
| 04.04 | 权重量化(W8A8 / AWQ / GPTQ)实战 | 建设中 |
| 04.05 | 推理服务化与 OpenAI 兼容接口 | 建设中 |