MindSpeed-RL:基于昇腾生态的强化学习加速框架项目

昇腾强化学习加速库

分支6Tags3
文件最后提交记录最后更新时间
add PULL_REQUEST_TEMPLATE.md Co-authored-by: wucong25<wucong25@huawei.com> # message auto-generated for no-merge-commit merge: !931 merge master into master add PULL_REQUEST_TEMPLATE.md Created-by: wucong25 Commit-by: wucong25 Merged-by: ascend-robot Description: What this PR does / why we need it? add PULL_REQUEST_TEMPLATE.md Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed-RL!9311 个月前
remove RL ci when only verl_npu files Co-authored-by: yezhibei<yezhibei@huawei.com> # message auto-generated for no-merge-commit merge: !869 merge verlremove into master remove RL ci when only verl_npu files Created-by: yezhibei Commit-by: yezhibei Merged-by: ascend-robot Description: remove RL ci when only verl_npu files See merge request: Ascend/MindSpeed-RL!8695 个月前
Refactor comments for folder cli Co-authored-by: psyloy<zhangjianxiang3@huawei.com> # message auto-generated for no-merge-commit merge: !917 merge master into master Refactor comments for folder cli Created-by: McFlurry100 Commit-by: psyloy Merged-by: ascend-robot Description: Refactor comments for folder cli See merge request: Ascend/MindSpeed-RL!9172 个月前
[fix] 更新文件 rl_config.py解决master分支32B模型劣化问题 Co-authored-by: wangshuyang31<wangshuyang8@huawei.com> # message auto-generated for no-merge-commit merge: !920 merge master into master [fix] 更新文件 rl_config.py解决master分支32B模型劣化问题 Created-by: wangshuyang31 Commit-by: wangshuyang31 Merged-by: ascend-robot Description: update: 更新文件 rl_config.py See merge request: Ascend/MindSpeed-RL!9202 个月前
doc: add License and dir_structure Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !932 merge dir_structure into master doc: add License and dir_structure Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: # What this PR does / why we need it? Add License and dir_structure,This is required by legal affairs. # Does this PR introduce any user-facing change? No # How was this patch tested? No testing required See merge request: Ascend/MindSpeed-RL!93213 天前
添加dispatch_size参数校验+规范文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !904 merge fix_docs into master 添加dispatch_size参数校验+规范文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 1. 修改前如果设置的dispatch_size大于batch size*n/dp会导致难以定位的通讯错误; 2. 根据昇腾社区意见规范文档。 See merge request: Ascend/MindSpeed-RL!9043 个月前
[copyright] add copyright head for some code files Co-authored-by: zjchenn<zjchenn@gmail.com> # message auto-generated for no-merge-commit merge: !924 merge add-copyright into master [copyright] add copyright head for some code files Created-by: zjchenn Commit-by: zjchenn Merged-by: ascend-robot Description: [copyright] add copyright head for some code files 安全开源证书整改,为与开源代码雷同的文件增加 copyright 头 See merge request: Ascend/MindSpeed-RL!9242 个月前
减少CI运行时间 Co-authored-by: yezhibei<yezhibei@huawei.com> # message auto-generated for no-merge-commit merge: !928 merge master into master 减少CI运行时间 Created-by: yezhibei Commit-by: yezhibei Merged-by: ascend-robot Description: 减少CI运行时间 See merge request: Ascend/MindSpeed-RL!9281 个月前
[doc] fix some typo and syntax error Co-authored-by: zjchenn<zjchenn@gmail.com> # message auto-generated for no-merge-commit merge: !930 merge doc-fix into master [doc] fix some typo and syntax error Created-by: zjchenn Commit-by: zjchenn Merged-by: ascend-robot Description: [doc] fix some typo and syntax error See merge request: Ascend/MindSpeed-RL!9301 个月前
!309 【resharding】support EP+vpp+nooplayer Merge pull request !309 from zhoubeirong/master 11 个月前
!35 add build dataset Merge pull request !35 from fengliangjun/master 1 年前
添加verl int8 推理模型脚本和使用文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !867 merge int8 into master 添加verl int8 推理模型脚本和使用文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 使用 flash-rl 工具,跑通VeRL int8 低精推理 + TIS 功能 See merge request: Ascend/MindSpeed-RL!8675 个月前
doc: add License and dir_structure Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !932 merge dir_structure into master doc: add License and dir_structure Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: # What this PR does / why we need it? Add License and dir_structure,This is required by legal affairs. # Does this PR introduce any user-facing change? No # How was this patch tested? No testing required See merge request: Ascend/MindSpeed-RL!93213 天前
Modify the document using the docs-ci tool Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !919 merge fix_docs into master Modify the document using the docs-ci tool Created-by: NurxatAbilmit Commit-by: NurxatAbilmit;nuerxiati Merged-by: ascend-robot Description: What this PR does / why we need it? 1. We use the docs-ci tool to scan and standardize the document。 2. Added the parameter tranformer impl: "local" to fix the error that occurred when MindSpeed-LLM ran RL 3. The requirements.txt has added packages bytecode that are missing in the environment Does this PR introduce any user-facing change? update docs, requirements and MindSpeed-LLM parameter How was this patch tested? The environment and the MindSpeed-LLM script were tested locally See merge request: Ascend/MindSpeed-RL!9192 个月前
[requirement] update pillow version to 12.1.1 Co-authored-by: zjchenn<zjchenn@gmail.com> # message auto-generated for no-merge-commit merge: !925 merge update-pillow into master [requirement] update pillow version to 12.1.1 Created-by: zjchenn Commit-by: zjchenn Merged-by: ascend-robot Description: [requirement] update pillow version to 12.1.1 See merge request: Ascend/MindSpeed-RL!9252 个月前
添加dispatch_size参数校验+规范文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !904 merge fix_docs into master 添加dispatch_size参数校验+规范文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 1. 修改前如果设置的dispatch_size大于batch size*n/dp会导致难以定位的通讯错误; 2. 根据昇腾社区意见规范文档。 See merge request: Ascend/MindSpeed-RL!9043 个月前

简介


MindSpeed RL:基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力。

目录结构


MindSpeed-RL/
├── ci/                       # CI/CD流水线脚本
├── cli/                      # 命令行入口,支持DAPO/DPO/GRPO/PPO训练启动
├── configs/                  # 训练配置文件(模型、数据集、算法YAML配置)
├── docs/                     # 项目文档(算法说明、特性指南、解决方案)
├── examples/                 # 训练示例脚本(各算法的Shell启动脚本)
├── mindspeed_rl/             # 核心RL训练框架
│   ├── config_cls/           # 配置类定义与校验
│   ├── datasets/             # 数据集加载与预处理
│   ├── models/               # 模型定义(Actor/Critic/Reward/Reference/Rollout)
│   ├── tools/                # 工具集成(ReTool/SearchTool)
│   ├── trainer/              # 训练器实现(GRPO/DAPO/PPO)
│   ├── utils/                # 通用工具函数(计算/日志/通信/指标)
│   └── workers/              # 分布式工作器(Actor/Critic/Reward/Resharding/Scheduler)
├── tests/                    # 测试用例(单元测试ut/系统测试st/verl示例)
├── verl_npu/                 # verl昇腾NPU适配层(patch文件与插件)
├── setup.py                  # 安装脚本
├── requirements.txt          # 依赖列表
└── LICENSE                   # 许可证

完整目录结构说明请参考目录结构文档

最新消息


🌆🌆🌆2026.4 当前MindSpeed-RL仓库已完成既定开发目标,将暂停新增功能的集成,但我们仍然会投入到现有功能的迭代优化与问题响应中,以保障相关应用场景的稳定性和使用体验。 如果希望体验最新的昇腾强化学习方案,可以访问verl昇腾实践。🌆🌆🌆

🚀🚀🚀 2025.11 MindSpeed RL 已支持agent rl多轮迭代训练 !!!🚀🚀🚀

版本说明


MindSpeed RL依赖配套如下表:

依赖软件 版本
昇腾NPU驱动 在研版本
昇腾NPU固件
Toolkit(开发套件) 在研版本
Kernel(算子包)
NNAL(Ascend Transformer Boost加速库)
Python PyTorch与Python版本配套表
PyTorch 2.7
torch_npu插件 在研版本
apex

更多详情请参考版本配套表

安装


MindSpeed RL具体的安装请参考安装指南

快速上手


快速在昇腾训练设备上运行 MindSpeed RL可详见快速入门

使用指南


训练算法

训练算法 训练指南 支持模型 发布状态
GRPO Doc Qwen2.5-7B
Qwen2.5-32B
Released
Doc Qwen2.5VL-3B
Qwen2.5VL-7B
Qwen2.5VL-32B
Released
Doc Qwen3-8B
Qwen3-235B-A22B
DeepSeek-R1-671B
Preview
DAPO Doc Qwen2.5-32B
Qwen3-30B-A3B
Qwen3-32B
Preview
PPO Doc Qwen2.5-32B
Preview
DPO Doc Qwen3-30B-A3B
Preview
注意:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本。

注意:使用Ray拉起任务的算法,如GRPO,环境变量需要在runtime_env.yaml处配置。

核心特性

核心特性 特性指南 适用算法 发布状态
训推共卡 Doc GRPO
DAPO
PPO
Released
数据调度 Doc GRPO
DAPO
PPO
Preview
权重重切分 Doc GRPO
DAPO
PPO
Preview
填充移除 Doc GRPO
DAPO
PPO
Preview
长序列并行 Doc GRPO
DAPO
PPO
DPO
Preview
Partial Rollout Doc GRPO
Preview
注意:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本。

效率工具

工具特性 特性指南 适用算法 发布状态
训练监控 Doc GRPO
DAPO
PPO
DPO
Preview
性能调优 Doc GRPO
DAPO
PPO
DPO
Preview
精度分析 Doc GRPO
DAPO
PPO
Preview
确定性计算 Doc GRPO
DAPO
PPO
DPO
Preview
注意:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本。

版本维护策略


MindSpeed RL版本有以下五个维护阶段:

状态 时间 说明
计划 1—3 个月 计划特性
开发 3 个月 开发特性
维护 6-12 个月 合入所有已解决的问题并发布版本,针对不同的MindSpeed RL版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月
无维护 0—3 个月 合入所有已解决的问题,无专职维护人员,无版本发布
生命周期终止(EOL) N/A 分支不再接受任何修改

MindSpeed RL已发布版本维护策略:

MindSpeed RL版本 对应标签 维护策略 当前状态 发布时间 后续状态 EOL日期
2.2.0 \ 正式版本 商用 \ \ 2026/03/30
2.1.0 \ 正式版本 商用 \ \ 2025/12/30
2.0.0 \ 预览版本 预览 \ \ 2025/9/30

安全声明


MindSpeed RL 安全声明

免责声明


致MindSpeed RL使用者

  1. MindSpeed RL提供的模型仅供您用于非商业目的。
  2. 对于各模型,MindSpeed RL平台仅提示性地向您建议可用于训练的数据集,华为不提供任何数据集,如您使用这些数据集进行训练,请您特别注意应遵守对应数据集的License,如您因使用数据集而产生侵权纠纷,华为不承担任何责任。
  3. 如您在使用MindSpeed RL模型过程中,发现任何问题(包括但不限于功能问题、合规问题),请在gitcode提交issue,我们将及时审视并解决。
  4. MindSpeed功能依赖的Megatron等第三方开源软件,均由第三方社区提供和维护,因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解,MindSpeed仓库不保证对第三方开源软件本身的问题进行修复,也不保证会测试、纠正所有第三方开源软件的漏洞和错误。

致数据集所有者

如果您不希望您的数据集在MindSpeed RL中的模型被提及,或希望更新MindSpeed RL中的模型关于您的数据集的描述,请在gitcode提交issue,我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed RL的理解和贡献。

License声明


  • MindSpeed RL产品的使用许可证,具体请参见LICENSE
  • MindSpeed RL工具docs目录下的文档适用CC-BY 4.0许可证,具体请参见LICENSE

致谢


MindSpeed RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献 :

华为公司:

  • 计算产品线
  • 2012实验室
  • 公共开发部
  • 全球技术服务部
  • 华为云计算
  • 质量与流程IT

生态合作伙伴:

  • 工商银行大数据与人工智能实验室

感谢来自社区的每一个PR,共同打造业界领先的RL训推系统。