本项目针对LLM与多模态模型训练业务中的典型模型、加速算法，提供基于CANN平台的优化样例

文件	最后提交记录	最后更新时间
.gitcode	modify pr template	7 个月前
agent_rl	[docs]: 修改文档中的一些文本错误	20 天前
ci	[feat] Added ci for patches and updated needed script/patch/readme	5 个月前
docs	[docs]: 修改文档中的一些文本错误	20 天前
llm_pretrain	delta_net - a linear attention demo for llm training	8 天前
llm_rl	[feat] Adapt verl NPU Demo for CANN 8.5.0	11 天前
llm_sft	[docs] delete default value	20 天前
multimodal_rl	[refactor] Restructure project directory structure	6 个月前
.pre-commit-config.yaml	modify deepseek readme	8 个月前
CONTRIBUTION.md	[docs]update contribution guide	22 天前
DISCLAIMER.md	modify docs	8 个月前
LICENSE	modify license to Apache2.0	7 个月前
README.md	[docs]: 修改文档中的一些文本错误	20 天前
Third_Party_Open_Source_Software_Notice	[license] fix license in Third_Party_Open_Source_Software_Notice	6 个月前

cann-recipes-train

🚀 Latest News

[2026/05] 新增DeepSeek-V4-Pro 模型续训练支持（基于torchtitan框架）样例，支持训练入图、AutoFuse特性。
[2026/04] 新增DeepSeek-V3模型MXFP8/HiF8 低精度预训练样例。
[2026/04] 新增DeepSeek-V4-Flash模型续训练0day支持（基于torchtitan框架）样例，支持训练入图、AutoFuse特性。
[2026/02] 新增DeepSeek-V3.2模型torchtitan框架预训练样例。
[2026/02] 新增Qwen3系列模型RL训练使能npugraph_ex图模式样例。
[2025/12] 新增Qwen2.5/Qwen3模型Code RL长上下文代码生成强化学习样例。
[2025/12] 新增Qwen3系列模型RL训练使能SAM投机推理、tool agent RL样例。
[2025/11] Qwen3模型长序列RL样例首次上线。
[2025/10] DeepSeek-R1、Qwen2.5模型样例首次上线。

🎉 概述

cann-recipes-train仓库旨在针对LLM与多模态模型训练业务中的典型模型、算法，提供基于CANN平台的优化样例，方便开发者简单、快速、高效地使用CANN平台进行模型训练。

✨ 实践列表

实践	简介
DeepSeek-R1 RL训练优化样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群实现GRPO算法的高吞吐RL训练，并达到120TPS/卡的系统吞吐量。
基于verl框架的Qwen2.5强化学习（入门样例）	基于Qwen2.5-1.5B-Instruct模型，采用verl强化学习框架，在MATH-lighteval数学推理数据集上进行了训练。本样例只需要单卡Atlas A2环境，帮助大家快速上手，使用昇腾NPU完成RL训练任务。
Qwen3-235B-A22B RL训练优化样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群实现GRPO/DAPO算法的长序列 2k+32k训练，GRPO达到120TPS/卡的系统吞吐量。
Qwen3-32B RL训练使能SAM投机推理样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群，GRPO/DAPO算法的2k+32k训练场景下，使能SAM投机推理特性，达成10%性能提升。
Qwen3 tool agent RL训练样例	基于verl/recipe中的retool项目，调用Sandbox工具，使能`asyncLLM`和`agent_loop`特性，在昇腾NPU上完成端到端agent RL训练任务。
基于ScaleBox沙盒的Code RL训练样例	基于verl框架和ScaleBox代码沙盒，支持长上下文(2k+16k) Code RL训练，Qwen3-30B-A3B在LiveCodeBench上Pass@1从46.59提升至56.27。
DeepSeek-V3.2 Pretrain训练样例	基于torchtitan，在64卡Atlas A3集群上完成DeepSeek-V3.2模型32K长序列预训练复现，吞吐达成148 TPS/卡。
DeepSeek-V4-Flash 续训练样例	基于torchtitan + autofuse，使能极简切分和训练入图，在Atlas A3 64卡集群支持DeepSeek-V4-Flash-285B模型的续训练，吞吐达成1100tokens/p/s。
DeepSeek-V3 MXFP8/HiF8 低精度预训练样例	基于MindSpeed，在 8 卡 Atlas A5 环境上完成 DeepSeek-V3 裁剪模型8k序列预训练复现。
DeepSeek-V4-Pro 续训练样例	基于 torchtitan + autofuse，使能极简切分和训练入图，在Atlas A3 192卡集群支持 DeepSeek-V4-Pro 模型的续训练。

🏃 一站式平台快速体验

「一站式平台」是为开发者提供的 NPU 环境，内部已集成完整的 CANN 环境，可以直接使用。

cann-recipes-train 针对该平台在相应样例 README 中提供了简化的「快速启动」路径，帮助用户最小步骤完成 NPU 模型训练体验。当前支持的模型正在持续扩展中，敬请关注：

实践	简介
Qwen3-1.7B SFT训练样例	在一站式平台Atlas A2/A3环境中完成Qwen3-1.7B 单卡SFT训练。
Qwen2.5-1.5B RL训练样例	在一站式平台Atlas A2/A3环境中基于verl框架完成Qwen2.5-1.5B-Instruct 单卡RL训练。

💡 特性介绍

本项目在探索最佳实践的过程中引入了如下特性：

特性	介绍
SAM无损投机推理	docs/features/sam_speculative_decoding.md
RL On-Policy 推理场景的序列级均衡调度引擎	docs/features/rollout_rebalance.md

📖 目录结构说明

├── docs                         # 优化技术介绍文档
├── llm_rl                       # llm强化学习训练相关代码
│  ├── deepseek                  # deepseek强化学习训练相关代码
│  ├── qwen2_5                   # Qwen2.5强化学习训练相关代码
│  ├── qwen3                     # Qwen3强化学习训练相关代码
│  └── ...
├── agent_rl                     # agent强化学习训练相关代码
│  ├── qwen3_tool_agent          # Qwen3 tool agent RL训练
│  ├── qwen2_code_rl             # 基于ScaleBox沙盒的Code RL训练
│  └── ...
├── multimodal_rl                # 多模态强化学习训练相关代码
├── llm_sft                      # llm有监督微调训练相关代码
├── llm_pretrain                 # llm预训练相关代码
├── CONTRIBUTION.md
├── README.md
└── ...