昇腾大模型加速库

文件	最后提交记录	最后更新时间
.gitcode	fix: update PULL_REQUEST_TEMPLATE.md Co-authored-by: clc2025<chenlucong@huawei.com> # message auto-generated for no-merge-commit merge: !3498 merge master into master fix: update PULL_REQUEST_TEMPLATE.md Created-by: clc2025 Commit-by: clc2025 Merged-by: ascend-robot Description: ## What this PR does / why we need it? Update PULL_REQUEST_TEMPLATE.md ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA See merge request: Ascend/MindSpeed!3498	1 个月前
ci	chore(ci): add ci docker Co-authored-by: clc2025<chenlucong@huawei.com> # message auto-generated for no-merge-commit merge: !3714 merge add_ci_dockerfile into master chore(ci): add ci docker Created-by: clc2025 Commit-by: clc2025 Merged-by: ascend-robot Description: ## What this PR does / why we need it? 为 MindSpeed 项目新增 CI Docker 构建和自动化测试入口，支撑门禁流水线的 UT 与 ST 验证。主要内容： - ci/Dockerfile — CI 镜像定义，基于 CANN 9.0.1 + openEuler 24.03 + Python 3.12，集成 Megatron-LM、MindSpeed-LLM、vLLM、vLLM-ascend、verl 等依赖 - ci/build.sh — 构建脚本，支持 910b/a3、openeuler/ubuntu、各组件版本可配 - ci/run_ci.sh — 容器内 CI 入口脚本，支持 diff 驱动的门禁判断，自动运行 pretrain_base / DeepSeek V3 / verl ST 及 UT - ci/OVERVIEW.md / ci/OVERVIEW.zh.md — 镜像使用文档 - ci/configure_*.sh — repo 源配置脚本 - requirements_basic.py — 新增 flash_attn.ops.triton.rotary.apply_rotary 的 dummy patch，修复 vLLM find_spec 命名空间冲突 ## Does this PR introduce any user-facing change? 无用户侧变更。CI 相关文件和文档位于 ci/ 目录，不影响 MindSpeed 核心功能。 ## How was this patch tested? ci/Dockerfile 通过 ci/build.sh -t 910b -o openeuler24.03 构建出 mindspeed-ci 镜像 See merge request: Ascend/MindSpeed!3714	3 天前
docker	docs:update document Co-authored-by: z60112595<zhaotao68@h-partners.com> # message auto-generated for no-merge-commit merge: !3679 merge master into master docs:update document Created-by: kali00 Commit-by: z60112595 Merged-by: ascend-robot Description: ## What this PR does / why we need it? https://gitcode.com/Ascend/MindSpeed/issues/200 1、统一修改TorchNPU名称 2、修改镜像说明 ## Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. ## How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3679	10 天前
docs	feat: add disable linear dw Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3712 merge disable-fb-linear-dw-detach into master feat: add disable linear dw Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: ## What this PR does / why we need it? 1. 取消linear默认dw分离操作，减少显存占用 2. 增加dense 输出重计算功能 3. 增加dense输出swap功能 4. 修复moe-zero-memory level1场景下fc1 输出未被swap in的bug ## Does this PR introduce any user-facing change? 不涉及 ## How was this patch tested? 不涉及 See merge request: Ascend/MindSpeed!3712	6 小时前
mindspeed	feat: add disable linear dw Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3712 merge disable-fb-linear-dw-detach into master feat: add disable linear dw Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: ## What this PR does / why we need it? 1. 取消linear默认dw分离操作，减少显存占用 2. 增加dense 输出重计算功能 3. 增加dense输出swap功能 4. 修复moe-zero-memory level1场景下fc1 输出未被swap in的bug ## Does this PR introduce any user-facing change? 不涉及 ## How was this patch tested? 不涉及 See merge request: Ascend/MindSpeed!3712	6 小时前
pre-commit	chore(pre-commit): add gitleaks secret scan hook and config Co-authored-by: clc2025<chenlucong@huawei.com> # message auto-generated for no-merge-commit merge: !3665 merge add_gitleaks into master chore(pre-commit): add gitleaks secret scan hook and config Created-by: clc2025 Commit-by: clc2025 Merged-by: ascend-robot Description: ## What this PR does / why we need it? Add Gitleaks secret scanning to the pre-commit hook to prevent accidental leakage of sensitive information (API keys, passwords, tokens, etc.) in code commits. Changes: - Added Gitleaks local offline binary scan hook to .pre-commit-config.yaml , which runs gitleaks protect with --verbose --redact options during the pre-commit stage. - Added gitleaks configuration file pre-commit/.gitleaks.toml with complete built-in default rules enabled, along with commented examples for custom rules, allowlists, and inline suppression usage. ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA See merge request: Ascend/MindSpeed!3665	10 天前
tests_extend	fix(qos): support A5 checks and QoS injection Co-authored-by: 2500_94447092<1109332012@qq.com> # message auto-generated for no-merge-commit merge: !3675 merge master into master fix(qos): support A5 checks and QoS injection Created-by: 2500_94447092 Commit-by: unknown;2500_94447092 Merged-by: ascend-robot Description: What this PR does / why we need it? 本 PR 完成 QoS 功能在 A5 代际上的适配，并重构 QoS 配置注入流程，使 QoS 相关逻辑能够同时支持 A3 和 A5 代际 NPU，同时减少对 Megatron 原生并行初始化逻辑的重复实现。主要修改如下： 1. 更新 A5 代际 QoS 适配逻辑将原先基于 `is_a3_version` 的判断方式，调整为基于 `get_npu_version()` 和 `NPUVersion` 的统一代际判断。 QoS 相关逻辑支持同时识别 A3 和 A5 代际。新增/调整 QoS 相关单元测试，覆盖不同 NPU 代际下的判断逻辑。 2. 通过 `get_nccl_options` 包装器注入 QoS 配置删除重复的 `initialize_model_parallel` 实现，避免与 Megatron 原生初始化流程重复维护。建立通信组名称与 QoS 通信域之间的映射关系。在创建通信组时通过 `get_nccl_options` 包装器注入 QoS 配置。注入 QoS 时保留原有 HCCL 配置，避免覆盖已有通信参数。覆盖扩展并行通信组中直接调用 `new_group` 的场景，保证扩展通信组同样能够应用 QoS 配置。 3. 更新 QoS 相关单元测试调整 `test_domain_info.py` 中 A3/A5 代际判断相关测试。删除原有仅面向 A3 的测试类，将 `is_a3_version` mock 方式替换为对 `get_npu_version()` 的 mock。使用 `NPUVersion.A3`、`NPUVersion.A5`、`NPUVersion.A2` 等返回值验证不同代际下的 QoS 判断逻辑。同步更新 `test_qos.py` 中相关导入、变量名和方法调用，适配新的 QoS 注入流程。 Does this PR introduce any user-facing change? NA How was this patch tested? NA See merge request: Ascend/MindSpeed!3675	2 天前
tools	docs: add Ascend path replacement guide and script Co-authored-by: fanlu5<fanlu5@huawei.com> # message auto-generated for no-merge-commit merge: !3572 merge master into master docs: add Ascend path replacement guide and script Created-by: fanlu5 Commit-by: fanlu5 Merged-by: ascend-robot Description: ## What this PR does / why we need it? 部分版本HDK安装路径修改，仓库内使用硬编码，需要使用脚本统一修改。参考LLM修改：https://gitcode.com/Ascend/MindSpeed-LLM/pull/4626 ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA See merge request: Ascend/MindSpeed!3572	28 天前
.clang-format	修改完善pre-commit开源代码检测工具 Co-authored-by: wujinyuan1<wujinyuan1@huawei.com> # message auto-generated for no-merge-commit merge: !3454 merge master into master 修改完善pre-commit开源代码检测工具 Created-by: wujinyuan1 Commit-by: wujinyuan1 Merged-by: ascend-robot Description: What this PR does / why we need it? Please describe the background and detailed changes of the PR. If it is a bugfix, please attach the related issue. Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3454	2 个月前
.gitignore	!352 [Fix] fix order of getting batch of ulysses Merge pull request !352 from 郭鹏/master	2 年前
.pre-commit-config.yaml	chore(pre-commit): add gitleaks secret scan hook and config Co-authored-by: clc2025<chenlucong@huawei.com> # message auto-generated for no-merge-commit merge: !3665 merge add_gitleaks into master chore(pre-commit): add gitleaks secret scan hook and config Created-by: clc2025 Commit-by: clc2025 Merged-by: ascend-robot Description: ## What this PR does / why we need it? Add Gitleaks secret scanning to the pre-commit hook to prevent accidental leakage of sensitive information (API keys, passwords, tokens, etc.) in code commits. Changes: - Added Gitleaks local offline binary scan hook to .pre-commit-config.yaml , which runs gitleaks protect with --verbose --redact options during the pre-commit stage. - Added gitleaks configuration file pre-commit/.gitleaks.toml with complete built-in default rules enabled, along with commented examples for custom rules, allowlists, and inline suppression usage. ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA See merge request: Ascend/MindSpeed!3665	10 天前
CONTRIBUTING.md	docs: fix Chinese documentation issues from AIDD review Co-authored-by: fanlu5<fanlu5@huawei.com> # message auto-generated for no-merge-commit merge: !3704 merge master into master docs: fix Chinese documentation issues from AIDD review Created-by: fanlu5 Commit-by: fanlu5 Merged-by: ascend-robot Description: ## What this PR does / why we need it? docs: fix Chinese documentation issues from AIDD review 本次修改根据AIDD文档评审反馈，修复了中文文档中的多处问题，包括： - 术语表述不准确（如"高保序性"、"低保真数据"等） - 公式错误（如分布式归一化中的方差计算公式） - 参数依赖关系描述不清（如 ulysses-degree-in-cp 的整除关系） - 特性描述与代码实现不一致（如 swap-optimizer 的 D2H/H2D 时序） - 性能提升概念混淆（如训练吞吐与收敛速度的区别） ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA ![image.png](https://raw.gitcode.com/user-images/assets/7404741/7ef3410f-56c1-4843-8657-01e8cdf2a218/image.png 'image.png') See merge request: Ascend/MindSpeed!3704	4 天前
LICENSE	!1138 【安全】冗余代码删除，Licnse添加 Merge pull request !1138 from jiangzhihan1/master	1 年前
OWNERS	Add reviewers Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: merge add_reviewer into master Add reviewers Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: Add reviewers in Owners See merge request: Ascend/MindSpeed!2874	9 个月前
README.md	docs: fix Chinese documentation issues from AIDD review Co-authored-by: fanlu5<fanlu5@huawei.com> # message auto-generated for no-merge-commit merge: !3704 merge master into master docs: fix Chinese documentation issues from AIDD review Created-by: fanlu5 Commit-by: fanlu5 Merged-by: ascend-robot Description: ## What this PR does / why we need it? docs: fix Chinese documentation issues from AIDD review 本次修改根据AIDD文档评审反馈，修复了中文文档中的多处问题，包括： - 术语表述不准确（如"高保序性"、"低保真数据"等） - 公式错误（如分布式归一化中的方差计算公式） - 参数依赖关系描述不清（如 ulysses-degree-in-cp 的整除关系） - 特性描述与代码实现不一致（如 swap-optimizer 的 D2H/H2D 时序） - 性能提升概念混淆（如训练吞吐与收敛速度的区别） ## Does this PR introduce any user-facing change? NA ## How was this patch tested? NA ![image.png](https://raw.gitcode.com/user-images/assets/7404741/7ef3410f-56c1-4843-8657-01e8cdf2a218/image.png 'image.png') See merge request: Ascend/MindSpeed!3704	4 天前
Third_Party_Open_Source_Software_Notice	!2602 添加免责声明 Merge pull request !2602 from glhyy/secrity	1 年前
requirements.txt	feat: Add MXFP8 support for FSDP Co-authored-by: EVA1<jingsiyu1@huawei.com> Co-authored-by: quancs001<quancs@qq.com> Co-authored-by: h00638954<huangzhiyuan8@huawei.com> # message auto-generated for no-merge-commit merge: !3387 merge fsdp_lp_ag into master feat: Add MXFP8 support for FSDP Created-by: quancs001 Commit-by: EVA1;quancs001;h00638954 Merged-by: ascend-robot Description: 在FSDP框架下新增MXFP8 Dense/MoE模型训练支持，实现了包括： 1. 基础的低精通信+FSDP框架 2. 实现了对MXFP8+低精通信的支持 3. MoE模型，支持了EP、EFSDP的适配 See merge request: Ascend/MindSpeed!3387	3 个月前
setup.py	【INFO update!!!】url替换 Co-authored-by: EX_mitsu<yangjie409@h-partners.com> # message auto-generated for no-merge-commit merge: merge master into master 【INFO update!!!】url替换 Created-by: EX_mitsuX Commit-by: EX_mitsu Merged-by: ascend-robot Description: 清理替换gitee相关url，添加新商发版本相关信息。 See merge request: Ascend/MindSpeed!2897	9 个月前

简介

MindSpeed Core是针对华为昇腾设备的大模型加速库。

大模型训练是一种非常复杂的过程，涉及到许多技术和挑战，其中大模型训练需要大量的显存资源是一个难题，对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时，可以通过多张计算卡进行计算，业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库，对模型、输入数据等进行切分并分配到不同的计算卡上，最后再通过集合通信对结果进行汇总。

昇腾提供 MindSpeed Core 加速库，使客户大模型业务能快速迁移至昇腾设备，并且支持昇腾专有算法，确保开箱可用。更多信息请参考MindSpeed Core简介。

此外在 MindSpeed Core 加速库的基础之上也提供了大语言模型、多模态模型套件加速库:

📝 大语言模型库: MindSpeed LLM
🖼️ 多模态模型库: MindSpeed MM

代码仓目录结构

关键目录结构如下，详细目录介绍请参考目录结构文档。

MindSpeed/
├── mindspeed/                    # 核心代码目录
│   ├── core/                     # 核心功能模块，包含并行策略、内存管理、优化器等核心能力
│   ├── features_manager/         # 特性管理模块，统一管理各种优化特性的注册与配置
│   ├── functional/               # 功能特性模块，包含NPU数据转储、确定性计算、性能分析等
│   ├── op_builder/               # 算子构建模块，提供算子编译和注册工具
│   ├── ops/                      # 算子模块，包含融合算子、自定义算子等高效实现
│   ├── args_utils.py             # 参数工具，提供参数解析和验证功能
│   ├── arguments.py              # 参数定义，包含分布式训练相关参数
│   ├── megatron_adapter.py       # Megatron-LM适配器，实现与Megatron框架的集成
│   ├── patch_utils.py            # 补丁工具，提供动态代码补丁功能
│   ├── train.py                  # 训练模块，提供训练流程控制
│   └── ...                       # 其他模块和功能
├── docs/                         # 文档目录，包含中英文特性文档、用户指南等
├── tests-extend/                 # 测试目录，包含扩展测试用例
└── tools/                        # 工具目录，提供辅助开发和性能分析工具

社区会议

MindSpeed系列TC及SIG会议安排请查看Ascend会议中心

版本说明

当前版本推荐配套表如下：

软件	版本
MindSpeed Core分支	master
Mcore版本	0.12.1
CANN版本	9.0.0
PyTorch	2.7.1
TorchNPU版本	26.0.0
Python版本	Python3.10.x

更多具体说明请参考：版本配套表。

安装

使用源码安装

MindSpeed Core拉取源码后使用pip命令行安装pip install -e MindSpeed，具体请参考部署文档安装 MindSpeed Core 指定分支及其依赖软件。

获取并切换Megatron-LM版本至 core_v0.12.1 版本，可参考：

git clone https://github.com/NVIDIA/Megatron-LM.git
cd Megatron-LM
git checkout core_v0.12.1

快速上手

概述

使用MindSpeed Core仅须增加一行代码，即可在昇腾训练设备上运行Megatron-LM，并进一步参考特性介绍使能MindSpeed的各项加速特性。

操作方法

以 GPT 模型为例：在 Megatron-LM 目录下修改pretrain_gpt.py文件，在import torch下新增一行：import mindspeed.megatron_adaptor，即如下修改：

  import torch
  import mindspeed.megatron_adaptor # 新增代码行
  from functools import partial
  from contextlib import nullcontext
  import inspect

具体操作可以参考快速上手指导。

MindSpeed LLM和MindSpeed MM的快速上手指导可参考：

大语言模型训练
- 基于PyTorch框架
多模态模型训练
- 基于PyTorch框架

加速特性分级说明

MindSpeed Core 加速特性分为三个层级，用户可根据实际需求选择通过设置启动脚本中的 --optimization-level {层级} 参数来自定义开启的优化层级。该参数支持以下配置：

层级	层级名称	介绍
0	基础功能兼容	提供Megatron-LM框架对NPU的基本功能适配。
1	亲和性增强🔥	在L0基础上使能部分融合算子与昇腾亲和计算改写。
2	加速特性使能🔥🔥	默认值。在L0、L1基础上开启更丰富的加速特性，加速特性通常通过具体参数使能，可参考"特性介绍"章节。

特性介绍

MindSpeed 特性由七大模块组成，分别为：Megatron特性支持、并行策略特性、内存优化特性、亲和计算特性、通信优化特性、关键场景特性以及多模态特性。其中【Released】表示是否商用发布，原型特性为非商用发布。

特性的介绍中说明了对应特性的应用场景及使用说明。一般而言，在脚本中加入相关参数即可轻松使用对应特性。🛰️
MindSpeed 加速特性仅支持mcore，这也是Megatron在v0.6.0版本后主推分支，也是当前版本的默认分支。🛰️
当前大模型训练主要使用bf16数据类型，以下特性若无特殊声明原则上兼容fp16，如使用其它数据类型遇到问题可提交issue，我们会快速响应。🛰️
注意❗：在Megatron_core_r0.9.0后，alltoall dispatcher进行了调整，原版本alltoall dispatcher重命名为alltoall_seq。MindSpeed MoE特性对各分支的支持情况，见各特性说明。

各特性支持情况请查看MindSpeed Core 特性支持情况。

自定义算子

昇腾训练自定义算子统一由TorchNPU提供API，以下API预计2025年Q4起不维护，请优先使用TorchNPU提供的自定义算子，如有新需求或问题可提issue反馈，我们会尽快回复。

部分自定义算子设置为公开接口，公开接口设置说明请参照 MindSpeed 安全声明中的公开接口声明，具体对外接口细节参照以下算子对应的手册链接。

自定义算子支持情况请查看MindSpeed Core 自定义算子支持情况。

分支维护策略

🛠️ MindSpeed 版本分支的维护阶段如下：

状态	时间	说明
计划 🕐	1-3 个月	计划特性
开发 🕔	3 个月	开发特性
维护 🕚	6-12 个月	合入所有已解决的问题并发布版本，针对不同的MindSpeed 版本采取不同的维护策略，常规版本和长期支持版本维护周期分别为6个月和12个月
无维护 🕛	0-3 个月	合入所有已解决的问题，无专职维护人员，无版本发布
生命周期终止（EOL）🚫	N/A	分支不再接受任何修改

🛠️ MindSpeed 版本维护策略：

MindSpeed版本	维护策略	当前状态	发布时间	后续状态
26.1.0_core_r0.12.1	常规版本	维护	2026/06/30	预计2026/12/30起无维护
26.0.0_core_r0.12.1	常规版本	维护	2026/03/30	预计2026/09/30起无维护
2.3.0_core_r0.12.1	常规版本	停止维护	2025/12/30	预计2026/06/30起无维护
2.2.0_core_r0.12.1	常规版本	停止维护	2025/09/30	2026/03/30起无维护
2.1.0_core_r0.12.1	常规版本	停止维护	2025/06/30	2025/12/30起无维护
2.1.0_core_r0.8.0	常规版本	停止维护	2025/06/30	2025/12/30起无维护
2.0.0_core_r0.8.0	常规版本	停止维护	2025/03/30	2025/09/30起无维护
1.0.0_core_r0.7.0	常规版本	停止维护	2024/12/30	2025/06/30起无维护
1.0.0_core_r0.6.0	常规版本	停止维护	2024/12/30	2025/06/30起无维护
1.0.RC3_core_r0.7.0	常规版本	停止维护	2024/09/30	2025/03/30起无维护
1.0.RC3_core_r0.6.0	常规版本	停止维护	2024/09/30	2025/03/30起无维护
1.0.RC2	常规版本	停止维护	2024/06/30	2024/12/30起无维护
1.0.RC1	常规版本	停止维护	2024/03/30	2024/09/30起无维护

常见问题

常见问题请查看MindSpeed FAQ。

技术文章

安全声明

⚠️ MindSpeed 安全声明

贡献指南

欢迎贡献 MindSpeed-Core！请查看贡献指南了解如何参与项目贡献。

免责声明

致MindSpeed使用者

MindSpeed提供的所有内容仅供您用于非商业目的。
对于MindSpeed测试用例以及示例文件中所涉及的各模型和数据集，平台仅用于功能测试，华为不提供任何模型权重和数据集，如您使用这些数据进行训练，请您特别注意应遵守对应模型和数据集的License，如您因使用这些模型和数据集而产生侵权纠纷，华为不承担任何责任。
如您在使用MindSpeed过程中，发现任何问题（包括但不限于功能问题、合规问题），请在Gitee提交issue，我们将及时审视并解决。
MindSpeed功能依赖的Megatron等第三方开源软件，均由第三方社区提供和维护，因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解，MindSpeed仓库不保证对第三方开源软件本身的问题进行修复，也不保证会测试、纠正所有第三方开源软件的漏洞和错误。

致数据所有者

如果您不希望您的模型或数据集在MindSpeed中被提及，或希望更新MindSpeed中有关的描述，请在Gitee提交issue，我们将根据您的issue要求删除或更新您相关描述。衷心感谢您对MindSpeed的理解和贡献。

License声明

Ascend MindSpeed中涉及的模型，如模型目录下存在License的，以该License为准。如模型目录下不存在License的，以Apache 2.0许可证许可，对应许可证文本可查阅Ascend MindSpeed根目录。 MindSpeed产品的使用许可证，具体请参见LICENSE文件。 MindSpeed docs目录下的文档适用CC-BY 4.0许可证，具体请参见LICENSE文件。

致谢

🔎 MindSpeed-Core 由华为公司的下列部门联合贡献：

华为公司：

昇腾计算产品部
计算算法部
计算软件平台部
计算技术开发部
公共开发部：NAIE
网络技术实验室

此外，MindSpeed-Core 感谢以下团队对项目的贡献：

微信基础架构中心
科大讯飞AI工程院内核技术部

感谢来自社区的每一个PR，欢迎贡献 MindSpeed-Core！

项目介绍