文件最后提交记录最后更新时间
【课程社区共建】新增大语言模型微调实战课程框架 Co-authored-by: 韩翔宇<admin@pescn.cn> # message auto-generated for no-merge-commit merge: !69 merge master into master 【课程社区共建】新增大语言模型微调实战课程框架 Created-by: pescn Commit-by: 韩翔宇 Merged-by: cann-robot Description: ## 描述 本课程面向**高校在校学生**,结合 SwanLab 团队正在开展的**线下启航营**实践内容,围绕 Qwen3 系列模型在昇腾 NPU 上的训练与加速展开。 本 PR 包括**大语言模型微调实战课程**中第一章:Qwen3 基座模型指令微调(SFT)的内容 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [x] 内容优化 - [ ] 其他,请描述: ## 其他说明 第二章课程数据集部分还在做合规和脱敏,因此临时处于占位符状态 See merge request: cann/cann-learning-hub!6916 天前
README.md

SwanLab

SwanLab x CANN 社区合作课程


第 04 章 · 大语言模型推理部署

章节定位

本章聚焦"训练好的模型如何对外提供服务"这一环节,覆盖在昇腾 NPU 上的推理引擎选型、权重量化、批处理与服务化部署。 预期读者在学完本章后,能在 CANNLab 上把一个微调后的 Qwen3 模型起成一个对外的 HTTP / OpenAI 兼容服务,并理解吞吐、延迟、显存之间的权衡。

计划节次

节次 标题(暂定) 状态
04.01 章节简介与推理瓶颈分析 建设中
04.02 KV cache 与 continuous batching 建设中
04.03 昇腾上的推理引擎选型与对比 建设中
04.04 权重量化(W8A8 / AWQ / GPTQ)实战 建设中
04.05 推理服务化与 OpenAI 兼容接口 建设中