文件	最后提交记录	最后更新时间
README.md	【课程社区共建】新增大语言模型微调实战课程框架 Co-authored-by: 韩翔宇<admin@pescn.cn> # message auto-generated for no-merge-commit merge: !69 merge master into master 【课程社区共建】新增大语言模型微调实战课程框架 Created-by: pescn Commit-by: 韩翔宇 Merged-by: cann-robot Description: ## 描述本课程面向高校在校学生，结合 SwanLab 团队正在开展的线下启航营实践内容，围绕 Qwen3 系列模型在昇腾 NPU 上的训练与加速展开。本 PR 包括大语言模型微调实战课程中第一章：Qwen3 基座模型指令微调（SFT）的内容 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [x] 内容优化 - [ ] 其他，请描述： ## 其他说明第二章课程数据集部分还在做合规和脱敏，因此临时处于占位符状态 See merge request: cann/cann-learning-hub!69	16 天前

SwanLab

SwanLab x CANN 社区合作课程

第 03 章 · 大语言模型强化学习

章节定位

在第 02 章 SFT / LoRA 的基础上，引入偏好学习与强化学习这一阶段，覆盖从 RLHF（PPO）到 DPO、GRPO 等更现代的方案。目标是让同学理解：为什么仅有 SFT 不够、奖励信号如何注入、训练为什么更不稳定，以及在昇腾 NPU 上跑 RL 训练时的工程权衡。