0

0

cann-robot【课程社区共建】新增大语言模型微调实战课程框架

7bfec91f创建于 16 天前历史提交

SwanLab

SwanLab x CANN 社区合作课程

第 03 章 · 大语言模型强化学习

章节定位

在第 02 章 SFT / LoRA 的基础上，引入偏好学习与强化学习这一阶段，覆盖从 RLHF（PPO）到 DPO、GRPO 等更现代的方案。目标是让同学理解：为什么仅有 SFT 不够、奖励信号如何注入、训练为什么更不稳定，以及在昇腾 NPU 上跑 RL 训练时的工程权衡。

计划节次

节次	标题（暂定）	状态
03.01	章节简介与对齐范式概览	建设中
03.02	偏好数据集与 Reward Model	建设中
03.03	PPO 端到端实战	建设中
03.04	DPO / GRPO 等无 RM 方案对比	建设中
03.05	代码可执行性作为奖励信号的案例	建设中