
SwanLab x CANN 社区合作课程
第 03 章 · 大语言模型强化学习
章节定位
在第 02 章 SFT / LoRA 的基础上,引入偏好学习与强化学习这一阶段,覆盖从 RLHF(PPO)到 DPO、GRPO 等更现代的方案。 目标是让同学理解:为什么仅有 SFT 不够、奖励信号如何注入、训练为什么更不稳定,以及在昇腾 NPU 上跑 RL 训练时的工程权衡。
计划节次
| 节次 | 标题(暂定) | 状态 |
|---|---|---|
| 03.01 | 章节简介与对齐范式概览 | 建设中 |
| 03.02 | 偏好数据集与 Reward Model | 建设中 |
| 03.03 | PPO 端到端实战 | 建设中 |
| 03.04 | DPO / GRPO 等无 RM 方案对比 | 建设中 |
| 03.05 | 代码可执行性作为奖励信号的案例 | 建设中 |