昇腾强化学习加速库

文件	最后提交记录	最后更新时间
.gitcode	add PULL_REQUEST_TEMPLATE.md Co-authored-by: wucong25<wucong25@huawei.com> # message auto-generated for no-merge-commit merge: !931 merge master into master add PULL_REQUEST_TEMPLATE.md Created-by: wucong25 Commit-by: wucong25 Merged-by: ascend-robot Description: What this PR does / why we need it? add PULL_REQUEST_TEMPLATE.md Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed-RL!931	2 个月前
ci	remove RL ci when only verl_npu files Co-authored-by: yezhibei<yezhibei@huawei.com> # message auto-generated for no-merge-commit merge: !869 merge verlremove into master remove RL ci when only verl_npu files Created-by: yezhibei Commit-by: yezhibei Merged-by: ascend-robot Description: remove RL ci when only verl_npu files See merge request: Ascend/MindSpeed-RL!869	6 个月前
cli	Refactor comments for folder cli Co-authored-by: psyloy<zhangjianxiang3@huawei.com> # message auto-generated for no-merge-commit merge: !917 merge master into master Refactor comments for folder cli Created-by: McFlurry100 Commit-by: psyloy Merged-by: ascend-robot Description: Refactor comments for folder cli See merge request: Ascend/MindSpeed-RL!917	3 个月前
configs	[fix] 更新文件 rl_config.py解决master分支32B模型劣化问题 Co-authored-by: wangshuyang31<wangshuyang8@huawei.com> # message auto-generated for no-merge-commit merge: !920 merge master into master [fix] 更新文件 rl_config.py解决master分支32B模型劣化问题 Created-by: wangshuyang31 Commit-by: wangshuyang31 Merged-by: ascend-robot Description: update: 更新文件 rl_config.py See merge request: Ascend/MindSpeed-RL!920	3 个月前
docs	[doc]: fix docs error Co-authored-by: LQ1206<liuqian164@h-partners.com> # message auto-generated for no-merge-commit merge: !933 merge master into master [doc]: fix docs error Created-by: LQ1206 Commit-by: LQ1206 Merged-by: ascend-robot Description: # What this PR does / why we need it? fix docs error # Does this PR introduce any user-facing change? updated docs # How was this patch tested? No test See merge request: Ascend/MindSpeed-RL!933	1 个月前
examples	添加dispatch_size参数校验+规范文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !904 merge fix_docs into master 添加dispatch_size参数校验+规范文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 1. 修改前如果设置的dispatch_size大于batch size*n/dp会导致难以定位的通讯错误； 2. 根据昇腾社区意见规范文档。 See merge request: Ascend/MindSpeed-RL!904	4 个月前
mindspeed_rl	[copyright] add copyright head for some code files Co-authored-by: zjchenn<zjchenn@gmail.com> # message auto-generated for no-merge-commit merge: !924 merge add-copyright into master [copyright] add copyright head for some code files Created-by: zjchenn Commit-by: zjchenn Merged-by: ascend-robot Description: [copyright] add copyright head for some code files 安全开源证书整改，为与开源代码雷同的文件增加 copyright 头 See merge request: Ascend/MindSpeed-RL!924	3 个月前
tests	减少CI运行时间 Co-authored-by: yezhibei<yezhibei@huawei.com> # message auto-generated for no-merge-commit merge: !928 merge master into master 减少CI运行时间 Created-by: yezhibei Commit-by: yezhibei Merged-by: ascend-robot Description: 减少CI运行时间 See merge request: Ascend/MindSpeed-RL!928	3 个月前
verl_npu	[doc] fix some typo and syntax error Co-authored-by: zjchenn<zjchenn@gmail.com> # message auto-generated for no-merge-commit merge: !930 merge doc-fix into master [doc] fix some typo and syntax error Created-by: zjchenn Commit-by: zjchenn Merged-by: ascend-robot Description: [doc] fix some typo and syntax error See merge request: Ascend/MindSpeed-RL!930	2 个月前
.gitignore	!309 【resharding】support EP+vpp+nooplayer Merge pull request !309 from zhoubeirong/master	1 年前
LICENSE	!35 add build dataset Merge pull request !35 from fengliangjun/master	1 年前
OWNERS	添加verl int8 推理模型脚本和使用文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !867 merge int8 into master 添加verl int8 推理模型脚本和使用文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 使用 flash-rl 工具，跑通VeRL int8 低精推理 + TIS 功能 See merge request: Ascend/MindSpeed-RL!867	6 个月前
README.md	doc: add License and dir_structure Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !932 merge dir_structure into master doc: add License and dir_structure Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: # What this PR does / why we need it? Add License and dir_structure，This is required by legal affairs. # Does this PR introduce any user-facing change? No # How was this patch tested? No testing required See merge request: Ascend/MindSpeed-RL!932	1 个月前
SECURITYNOTE.md	整合所有漏洞响应章节修改 Co-authored-by: ChibiQuest<944646081@qq.com> # message auto-generated for no-merge-commit merge: !938 merge clean-master into master 整合所有漏洞响应章节修改 Created-by: whale127 Commit-by: ChibiQuest Merged-by: ascend-robot Description: # What this PR does / why we need it? Please describe the background and detailed changes of the PR. If it is a bugfix, please attach the related issue. # Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. # How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed-RL!938	12 小时前
requirements.txt	[requirement] update ray, transformers, pillow version Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !934 merge update_depandence into master [requirement] update ray, transformers, pillow version Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: # What this PR does / why we need it? Upgraded the versions of some dependencies due to security vulnerabilities. # Does this PR introduce any user-facing change? No # How was this patch tested? Upgrade the CI environment version See merge request: Ascend/MindSpeed-RL!934	14 天前
setup.py	添加dispatch_size参数校验+规范文档 Co-authored-by: nuerxiati<738457498@qq.com> # message auto-generated for no-merge-commit merge: !904 merge fix_docs into master 添加dispatch_size参数校验+规范文档 Created-by: NurxatAbilmit Commit-by: nuerxiati Merged-by: ascend-robot Description: 1. 修改前如果设置的dispatch_size大于batch size*n/dp会导致难以定位的通讯错误； 2. 根据昇腾社区意见规范文档。 See merge request: Ascend/MindSpeed-RL!904	4 个月前

简介

MindSpeed RL：基于昇腾生态的强化学习加速框架，旨在为华为昇腾芯片生态合作伙伴提供端到端的RL训推解决方案，支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力。

目录结构

MindSpeed-RL/
├── ci/                       # CI/CD流水线脚本
├── cli/                      # 命令行入口，支持DAPO/DPO/GRPO/PPO训练启动
├── configs/                  # 训练配置文件（模型、数据集、算法YAML配置）
├── docs/                     # 项目文档（算法说明、特性指南、解决方案）
├── examples/                 # 训练示例脚本（各算法的Shell启动脚本）
├── mindspeed_rl/             # 核心RL训练框架
│   ├── config_cls/           # 配置类定义与校验
│   ├── datasets/             # 数据集加载与预处理
│   ├── models/               # 模型定义（Actor/Critic/Reward/Reference/Rollout）
│   ├── tools/                # 工具集成（ReTool/SearchTool）
│   ├── trainer/              # 训练器实现（GRPO/DAPO/PPO）
│   ├── utils/                # 通用工具函数（计算/日志/通信/指标）
│   └── workers/              # 分布式工作器（Actor/Critic/Reward/Resharding/Scheduler）
├── tests/                    # 测试用例（单元测试ut/系统测试st/verl示例）
├── verl_npu/                 # verl昇腾NPU适配层（patch文件与插件）
├── setup.py                  # 安装脚本
├── requirements.txt          # 依赖列表
└── LICENSE                   # 许可证

版本说明

MindSpeed RL依赖配套如下表：

依赖软件	版本
昇腾NPU驱动	在研版本
昇腾NPU固件	在研版本
Toolkit（开发套件）	在研版本
Kernel（算子包）
NNAL（Ascend Transformer Boost加速库）
Python	PyTorch与Python版本配套表
PyTorch	2.7
torch_npu插件	在研版本
apex	在研版本

更多详情请参考版本配套表。

安装

MindSpeed RL具体的安装请参考安装指南。

快速上手

快速在昇腾训练设备上运行 MindSpeed RL可详见快速入门。

使用指南

训练算法

训练算法	训练指南	支持模型	发布状态
GRPO	Doc	Qwen2.5-7B Qwen2.5-32B	Released
	Doc	Qwen2.5VL-3B Qwen2.5VL-7B Qwen2.5VL-32B	Released
	Doc	Qwen3-8B Qwen3-235B-A22B DeepSeek-R1-671B	Preview
DAPO	Doc	Qwen2.5-32B Qwen3-30B-A3B Qwen3-32B	Preview
PPO	Doc	Qwen2.5-32B	Preview
DPO	Doc	Qwen3-30B-A3B	Preview

注意："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本。

注意：使用Ray拉起任务的算法，如GRPO，环境变量需要在runtime_env.yaml处配置。

核心特性

核心特性	特性指南	适用算法	发布状态
训推共卡	Doc	GRPO DAPO PPO	Released
数据调度	Doc	GRPO DAPO PPO	Preview
权重重切分	Doc	GRPO DAPO PPO	Preview
填充移除	Doc	GRPO DAPO PPO	Preview
长序列并行	Doc	GRPO DAPO PPO DPO	Preview
Partial Rollout	Doc	GRPO	Preview

注意："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本。

效率工具

工具特性	特性指南	适用算法	发布状态
训练监控	Doc	GRPO DAPO PPO DPO	Preview
性能调优	Doc	GRPO DAPO PPO DPO	Preview
精度分析	Doc	GRPO DAPO PPO	Preview
确定性计算	Doc	GRPO DAPO PPO DPO	Preview

注意："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本。

版本维护策略

MindSpeed RL版本有以下五个维护阶段：

状态	时间	说明
计划	1—3 个月	计划特性
开发	3 个月	开发特性
维护	6-12 个月	合入所有已解决的问题并发布版本，针对不同的MindSpeed RL版本采取不同的维护策略，常规版本和长期支持版本维护周期分别为6个月和12个月
无维护	0—3 个月	合入所有已解决的问题，无专职维护人员，无版本发布
生命周期终止（EOL）	N/A	分支不再接受任何修改

MindSpeed RL已发布版本维护策略：

MindSpeed RL版本	对应标签	维护策略	当前状态	发布时间	后续状态	EOL日期
2.2.0	\	正式版本	商用	\	\	2026/03/30
2.1.0	\	正式版本	商用	\	\	2025/12/30
2.0.0	\	预览版本	预览	\	\	2025/9/30

安全声明

MindSpeed RL 安全声明

免责声明

致MindSpeed RL使用者

MindSpeed RL提供的模型仅供您用于非商业目的。
对于各模型，MindSpeed RL平台仅提示性地向您建议可用于训练的数据集，华为不提供任何数据集，如您使用这些数据集进行训练，请您特别注意应遵守对应数据集的License，如您因使用数据集而产生侵权纠纷，华为不承担任何责任。
如您在使用MindSpeed RL模型过程中，发现任何问题（包括但不限于功能问题、合规问题），请在gitcode提交issue，我们将及时审视并解决。
MindSpeed功能依赖的Megatron等第三方开源软件，均由第三方社区提供和维护，因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解，MindSpeed仓库不保证对第三方开源软件本身的问题进行修复，也不保证会测试、纠正所有第三方开源软件的漏洞和错误。

致数据集所有者

如果您不希望您的数据集在MindSpeed RL中的模型被提及，或希望更新MindSpeed RL中的模型关于您的数据集的描述，请在gitcode提交issue，我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed RL的理解和贡献。

License声明

MindSpeed RL产品的使用许可证，具体请参见LICENSE。
MindSpeed RL工具docs目录下的文档适用CC-BY 4.0许可证，具体请参见LICENSE。

致谢

MindSpeed RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献：

华为公司：

计算产品线
2012实验室
公共开发部
全球技术服务部
华为云计算
质量与流程IT

生态合作伙伴:

工商银行大数据与人工智能实验室

感谢来自社区的每一个PR，共同打造业界领先的RL训推系统。

项目介绍

昇腾强化学习加速库

MIT Python 415提交数ray pytorch

定制我的领域

README

规则集

MindSpeed-RL:基于昇腾生态的强化学习加速框架项目

简介

目录结构

最新消息

版本说明

安装

快速上手

使用指南

训练算法

核心特性

效率工具

版本维护策略

安全声明

免责声明

致MindSpeed RL使用者

致数据集所有者

License声明

致谢

项目介绍