简介
MindSpeed RL:基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力。
目录结构
MindSpeed-RL/
├── ci/ # CI/CD流水线脚本
├── cli/ # 命令行入口,支持DAPO/DPO/GRPO/PPO训练启动
├── configs/ # 训练配置文件(模型、数据集、算法YAML配置)
├── docs/ # 项目文档(算法说明、特性指南、解决方案)
├── examples/ # 训练示例脚本(各算法的Shell启动脚本)
├── mindspeed_rl/ # 核心RL训练框架
│ ├── config_cls/ # 配置类定义与校验
│ ├── datasets/ # 数据集加载与预处理
│ ├── models/ # 模型定义(Actor/Critic/Reward/Reference/Rollout)
│ ├── tools/ # 工具集成(ReTool/SearchTool)
│ ├── trainer/ # 训练器实现(GRPO/DAPO/PPO)
│ ├── utils/ # 通用工具函数(计算/日志/通信/指标)
│ └── workers/ # 分布式工作器(Actor/Critic/Reward/Resharding/Scheduler)
├── tests/ # 测试用例(单元测试ut/系统测试st/verl示例)
├── verl_npu/ # verl昇腾NPU适配层(patch文件与插件)
├── setup.py # 安装脚本
├── requirements.txt # 依赖列表
└── LICENSE # 许可证
完整目录结构说明请参考目录结构文档。
最新消息
🌆🌆🌆2026.4 当前MindSpeed-RL仓库已完成既定开发目标,将暂停新增功能的集成,但我们仍然会投入到现有功能的迭代优化与问题响应中,以保障相关应用场景的稳定性和使用体验。 如果希望体验最新的昇腾强化学习方案,可以访问verl昇腾实践。🌆🌆🌆
🚀🚀🚀 2025.11 MindSpeed RL 已支持agent rl多轮迭代训练 !!!🚀🚀🚀
版本说明
MindSpeed RL依赖配套如下表:
| 依赖软件 | 版本 |
|---|---|
| 昇腾NPU驱动 | 在研版本 |
| 昇腾NPU固件 | |
| Toolkit(开发套件) | 在研版本 |
| Kernel(算子包) | |
| NNAL(Ascend Transformer Boost加速库) | |
| Python | PyTorch与Python版本配套表 |
| PyTorch | 2.7 |
| torch_npu插件 | 在研版本 |
| apex |
更多详情请参考版本配套表。
安装
MindSpeed RL具体的安装请参考安装指南。
快速上手
快速在昇腾训练设备上运行 MindSpeed RL可详见快速入门。
使用指南
训练算法
| 训练算法 | 训练指南 | 支持模型 | 发布状态 |
|---|---|---|---|
| GRPO | Doc |
Qwen2.5-7B Qwen2.5-32B |
Released |
| Doc |
Qwen2.5VL-3B Qwen2.5VL-7B Qwen2.5VL-32B |
Released | |
| Doc |
Qwen3-8B Qwen3-235B-A22B DeepSeek-R1-671B |
Preview | |
| DAPO | Doc |
Qwen2.5-32B Qwen3-30B-A3B Qwen3-32B |
Preview |
| PPO | Doc |
Qwen2.5-32B |
Preview |
| DPO | Doc |
Qwen3-30B-A3B |
Preview |
注意:使用Ray拉起任务的算法,如GRPO,环境变量需要在runtime_env.yaml处配置。
核心特性
| 核心特性 | 特性指南 | 适用算法 | 发布状态 |
|---|---|---|---|
| 训推共卡 | Doc |
GRPO DAPO PPO |
Released |
| 数据调度 | Doc |
GRPO DAPO PPO |
Preview |
| 权重重切分 | Doc |
GRPO DAPO PPO |
Preview |
| 填充移除 | Doc |
GRPO DAPO PPO |
Preview |
| 长序列并行 | Doc |
GRPO DAPO PPO DPO |
Preview |
| Partial Rollout | Doc |
GRPO |
Preview |
效率工具
| 工具特性 | 特性指南 | 适用算法 | 发布状态 |
|---|---|---|---|
| 训练监控 | Doc |
GRPO DAPO PPO DPO |
Preview |
| 性能调优 | Doc |
GRPO DAPO PPO DPO |
Preview |
| 精度分析 | Doc |
GRPO DAPO PPO |
Preview |
| 确定性计算 | Doc |
GRPO DAPO PPO DPO |
Preview |
版本维护策略
MindSpeed RL版本有以下五个维护阶段:
| 状态 | 时间 | 说明 |
|---|---|---|
| 计划 | 1—3 个月 | 计划特性 |
| 开发 | 3 个月 | 开发特性 |
| 维护 | 6-12 个月 | 合入所有已解决的问题并发布版本,针对不同的MindSpeed RL版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月 |
| 无维护 | 0—3 个月 | 合入所有已解决的问题,无专职维护人员,无版本发布 |
| 生命周期终止(EOL) | N/A | 分支不再接受任何修改 |
MindSpeed RL已发布版本维护策略:
| MindSpeed RL版本 | 对应标签 | 维护策略 | 当前状态 | 发布时间 | 后续状态 | EOL日期 |
|---|---|---|---|---|---|---|
| 2.2.0 | \ | 正式版本 | 商用 | \ | \ | 2026/03/30 |
| 2.1.0 | \ | 正式版本 | 商用 | \ | \ | 2025/12/30 |
| 2.0.0 | \ | 预览版本 | 预览 | \ | \ | 2025/9/30 |
安全声明
免责声明
致MindSpeed RL使用者
- MindSpeed RL提供的模型仅供您用于非商业目的。
- 对于各模型,MindSpeed RL平台仅提示性地向您建议可用于训练的数据集,华为不提供任何数据集,如您使用这些数据集进行训练,请您特别注意应遵守对应数据集的License,如您因使用数据集而产生侵权纠纷,华为不承担任何责任。
- 如您在使用MindSpeed RL模型过程中,发现任何问题(包括但不限于功能问题、合规问题),请在gitcode提交issue,我们将及时审视并解决。
- MindSpeed功能依赖的Megatron等第三方开源软件,均由第三方社区提供和维护,因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解,MindSpeed仓库不保证对第三方开源软件本身的问题进行修复,也不保证会测试、纠正所有第三方开源软件的漏洞和错误。
致数据集所有者
如果您不希望您的数据集在MindSpeed RL中的模型被提及,或希望更新MindSpeed RL中的模型关于您的数据集的描述,请在gitcode提交issue,我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed RL的理解和贡献。
License声明
致谢
MindSpeed RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献 :
华为公司:
- 计算产品线
- 2012实验室
- 公共开发部
- 全球技术服务部
- 华为云计算
- 质量与流程IT
生态合作伙伴:
- 工商银行大数据与人工智能实验室
感谢来自社区的每一个PR,共同打造业界领先的RL训推系统。