cann-recipes-train:基于 CANN 平台的 LLM 与多模态模型训练优化样例项目

本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例

分支2Tags1

cann-recipes-train

🚀 Latest News

🎉 概述

cann-recipes-train仓库旨在针对LLM与多模态模型训练业务中的典型模型、算法,提供基于CANN平台的优化样例,方便开发者简单、快速、高效地使用CANN平台进行模型训练。

✨ 实践列表

实践 简介
DeepSeek-R1 RL训练优化样例 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO算法的高吞吐RL训练,并达到120TPS/卡的系统吞吐量。
基于verl框架的Qwen2.5强化学习(入门样例) 基于Qwen2.5-1.5B-Instruct模型,采用verl强化学习框架,在MATH-lighteval数学推理数据集上进行了训练。本样例只需要单卡Atlas A2环境,帮助大家快速上手,使用昇腾NPU完成RL训练任务。
Qwen3-235B-A22B RL训练优化样例 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO/DAPO算法的长序列 2k+32k训练,GRPO达到120TPS/卡的系统吞吐量。
Qwen3-32B RL训练使能SAM投机推理样例 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群,GRPO/DAPO算法的2k+32k训练场景下,使能SAM投机推理特性,达成10%性能提升
Qwen3 tool agent RL训练样例 基于verl/recipe中的retool项目,调用Sandbox工具,使能asyncLLMagent_loop特性,在昇腾NPU上完成端到端agent RL训练任务。
基于ScaleBox沙盒的Code RL训练样例 基于verl框架和ScaleBox代码沙盒,支持长上下文(2k+16k) Code RL训练,Qwen3-30B-A3B在LiveCodeBench上Pass@1从46.59提升至56.27。
DeepSeek-V3.2 Pretrain训练样例 基于torchtitan,在64卡Atlas A3集群上完成DeepSeek-V3.2模型32K长序列预训练复现,吞吐达成148 TPS/卡
DeepSeek-V4-Flash 续训练样例 基于torchtitan + autofuse,使能极简切分和训练入图,在Atlas A3 64卡集群支持DeepSeek-V4-Flash-285B模型的续训练,吞吐达成1100tokens/p/s
DeepSeek-V3 MXFP8/HiF8 低精度预训练样例 基于MindSpeed,在 8 卡 Atlas A5 环境上完成 DeepSeek-V3 裁剪模型8k序列预训练复现。
DeepSeek-V4-Pro 续训练样例 基于 torchtitan + autofuse,使能极简切分和训练入图,在Atlas A3 192卡集群支持 DeepSeek-V4-Pro 模型的续训练。

🏃 一站式平台快速体验

「一站式平台」是为开发者提供的 NPU 环境,内部已集成完整的 CANN 环境,可以直接使用。

cann-recipes-train 针对该平台在相应样例 README 中提供了简化的「快速启动」路径,帮助用户最小步骤完成 NPU 模型训练体验。当前支持的模型正在持续扩展中,敬请关注:

实践 简介
Qwen3-1.7B SFT训练样例 在一站式平台Atlas A2/A3环境中完成Qwen3-1.7B 单卡SFT训练。
Qwen2.5-1.5B RL训练样例 在一站式平台Atlas A2/A3环境中基于verl框架完成Qwen2.5-1.5B-Instruct 单卡RL训练。

💡 特性介绍

本项目在探索最佳实践的过程中引入了如下特性:

特性 介绍
SAM无损投机推理 docs/features/sam_speculative_decoding.md
RL On-Policy 推理场景的序列级均衡调度引擎 docs/features/rollout_rebalance.md

📖 目录结构说明

├── docs                         # 优化技术介绍文档
├── llm_rl                       # llm强化学习训练相关代码
│  ├── deepseek                  # deepseek强化学习训练相关代码
│  ├── qwen2_5                   # Qwen2.5强化学习训练相关代码
│  ├── qwen3                     # Qwen3强化学习训练相关代码
│  └── ...
├── agent_rl                     # agent强化学习训练相关代码
│  ├── qwen3_tool_agent          # Qwen3 tool agent RL训练
│  ├── qwen2_code_rl             # 基于ScaleBox沙盒的Code RL训练
│  └── ...
├── multimodal_rl                # 多模态强化学习训练相关代码
├── llm_sft                      # llm有监督微调训练相关代码
├── llm_pretrain                 # llm预训练相关代码
├── CONTRIBUTION.md
├── README.md
└── ...

🤖 智能代码助手

本仓已集成 Zread 代码仓库智能体,旨在通过 AI 技术为您提供更深度的代码理解与技术支持。

点击 Zread 徽章,进入其专属页面,开启在线智能代码学习与知识问答体验!

⚠️ 说明: 当前代码仓库智能体服务处于试点阶段。在使用过程中,如果您发现 AI 生成的内容存在准确性问题,或对智能助手的功能有任何改进建议,欢迎通过 Issues 与我们交流,您的反馈对我们非常重要!

📝 相关信息

  • 贡献指南

  • 许可证

    cann-recipes-train仓涉及的模型,如模型目录下存在License的,以该License为准。如模型目录下不存在License的,遵循Apache 2.0许可证,对应许可证文本可查阅LICENSE

  • 免责声明

项目介绍

本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例

定制我的领域